Я захватил большой объем данных из многочисленных CSV-файлов. Определенная информация была вырезана. Один раздел, который я вырезал, - это раздел с большим количеством различных текстовых форматов. Некоторые из них - эмоции и другой нестандартный текст.Вывод строковых данных в «сыром» формате
При выдаче этих данных в формате HTML у меня были ошибки. В настоящее время у меня есть следующая ошибка:
UnicodeDecodeError: 'charmap' codec can't decode byte 0X90 in Position: character maps to <undefined>.
В настоящее время программа хранит информацию в массиве из строки. Затем массив записывается в файл HTML.
Любая идея, как преодолеть эту проблему в Python 3.2 или как реализовать буфер символов?
UPDATE
Я попытался комментарии ниже, а также сделать дополнительные исследования.
Я использовал этот код без толка:
MessageArray.append(Message.encode('ascii', 'ignore'))
Но я получил ошибку: TypeError: Брус преобразование объекта «БАЙТ» на ул неявно.
Какова кодировка ваших входных данных? CSV - это текстовые файлы, они не должны содержать «сырые» двоичные данные. Возможно, вам просто нужно прочитать CSV-файлы с правильной кодировкой. – millimoose
«При необходимости могут быть предоставлены фрагменты кода». - Да, пожалуйста. –
На самом деле не существует «сырого» способа кодирования/декодирования между внутренним представлением строк unicode и двоичным выходом. (За исключением, может быть, UTF-32, но это очень редко полезно.) Вы либо переходите между массивами байтов и массивами байтов (что здесь не так, потому что CSV и HTML являются текстовыми форматами), или вы должны знать, что кодирует ваш вход и выход текст находится. – millimoose