2012-07-26 5 views
1

Я захватил большой объем данных из многочисленных CSV-файлов. Определенная информация была вырезана. Один раздел, который я вырезал, - это раздел с большим количеством различных текстовых форматов. Некоторые из них - эмоции и другой нестандартный текст.Вывод строковых данных в «сыром» формате

При выдаче этих данных в формате HTML у меня были ошибки. В настоящее время у меня есть следующая ошибка:

UnicodeDecodeError: 'charmap' codec can't decode byte 0X90 in Position: character maps to <undefined>.

В настоящее время программа хранит информацию в массиве из строки. Затем массив записывается в файл HTML.

Любая идея, как преодолеть эту проблему в Python 3.2 или как реализовать буфер символов?

UPDATE

Я попытался комментарии ниже, а также сделать дополнительные исследования.

Я использовал этот код без толка:

MessageArray.append(Message.encode('ascii', 'ignore')) 

Но я получил ошибку: TypeError: Брус преобразование объекта «БАЙТ» на ул неявно.

+0

Какова кодировка ваших входных данных? CSV - это текстовые файлы, они не должны содержать «сырые» двоичные данные. Возможно, вам просто нужно прочитать CSV-файлы с правильной кодировкой. – millimoose

+3

«При необходимости могут быть предоставлены фрагменты кода». - Да, пожалуйста. –

+0

На самом деле не существует «сырого» способа кодирования/декодирования между внутренним представлением строк unicode и двоичным выходом. (За исключением, может быть, UTF-32, но это очень редко полезно.) Вы либо переходите между массивами байтов и массивами байтов (что здесь не так, потому что CSV и HTML являются текстовыми форматами), или вы должны знать, что кодирует ваш вход и выход текст находится. – millimoose

ответ

0

Я смог исправить свою проблему, следуя комментарию @SilverbackNet. Хотя это не повлияло на мою общую проблему как возможность импортировать и преобразовывать необработанные двоичные данные из CSV, но разрешено игнорировать данные, которые приносят мне проблемы.

Смежные вопросы