Использование Python 2.7.11Unicode Дэш не обнаруживается, если заявление
черточек из UTF-8 документа я читал в настоящее время игнорируются, если заявления предназначены для их обнаружения. Тире печатается на консоли как символ «-», а когда отображается как представление, отображается как u'- ». Символ, переданный через ord(), отображает порядковый номер 45, который совпадает с тире.
segment = line[:section_widths[row_index]].strip()
line = line[section_widths[row_index]+1:]
if segment:
print 'seg'
if segment is u'-' or segment is '-':
print 'DASH DETECTED'
continue
print "ord %d" % ord(segment[0])
Предполагаю, что это должно быть персонажем 45 (что Юникод называет «HYPHEN-MINUS»), а не, например, EN DASH (u + 2013) или EM DASH (u + 2014). –
Да, исходный текст был символом «HYPHEN-MINUS», хотя в документе он использовался в качестве заполнителя, подобно эллипсам. – eadsjr