У меня есть XML-файл с некоторыми немецкими умляутами. Моя цель - прочитать в файле и сохранить результаты в базе данных. Для тестирования я получил два разных файла. Первый - согласно чарту UTF-8-SIG другой UTF-8.Разбор UTF-8 XML-файлов с Python
предварительной обработки данных осуществляется с помощью unicode(field[0])
после чтения файла с LXML
разборе первый файл работает отлично, но обработка других приводит к ошибке кодирования: UnicodeEncodeError: «ASCII» кодек не может кодировать символы в позиция: порядковый номер не в диапазоне (128)
Например, такая строка может быть u'Zubeh \ xf6r '(print(field[0]
).
Использование print (field[0].encode("utf-8"))
результатов в правой строке, но тип str
вместо unicode
Взгляните на этот вопрос: http://stackoverflow.com/questions/28852321/python-unicodedecodeerror-when-writing-german-letters – RafaelC
спасибо. Я обновил вопрос – jwacalex