2014-10-05 1 views
1

Я корейский пользователь.Сломанные корейские строки при чтении DataFrame из CSV

Когда я прочитал файл .csv из панды DataFrame, корейские строки разбиты, как это: �����

английский хорошо.

Входные данные пробы:

Unnamed: 0 �������� �������ε����� ��X��ǥ ��Y��ǥ �����ڵ� ������ ����߻��������� ����Ǽ� �������� 

0 165244 20131201 �ٻ�62175541 962170 1955410 331 �������� 1 2 18224.03 

Почему корейский текст испорчен?

+0

Что такое кодирование файла .csv? Сохраняется ли с помощью utf8 или другого кодирования? – SSC

ответ

0

ваш текстовый формат Юникод, так что вы должны декодировать его как utf-8:

import csv 
def unicode_reader('your_file_name',delimiter='your_delimiter', **kwargs): 
    spamreader = csv.reader('your_file_name',delimiter='your_delimiter', **kwargs) 
    for row in spamreader: 
     yield [unicode(w, 'utf-8') for w in row] 

reader = unicode_csv_reader(open('your_file_name')) 
for tex in reader: 
    print tex 
+0

Я пользователь ipython. и я использую этот код. но я смотрю эту ошибку ---- UnicodeDecodeError: кодек 'utf8' не может декодировать байт 0xc7 в позиции 0: недопустимый остаток продолжения –

+0

, поэтому измените 'utf-8' на' ISO-8859-1' и дайте мне результат! – Kasramvd

Смежные вопросы