Сломанные корейские строки при чтении DataFrame из CSV

Я корейский пользователь.Сломанные корейские строки при чтении DataFrame из CSV

Когда я прочитал файл .csv из панды DataFrame, корейские строки разбиты, как это: ��

английский хорошо.

Входные данные пробы:

Unnamed: 0 �������� �������ε����� ��X��ǥ ��Y��ǥ �����ڵ� ������ ����߻��������� ����Ǽ� �������� 

0 165244 20131201 �ٻ�62175541 962170 1955410 331 �������� 1 2 18224.03

Почему корейский текст испорчен?

источник

2014-10-05 강동인

Что такое кодирование файла .csv? Сохраняется ли с помощью utf8 или другого кодирования? – SSC

ваш текстовый формат Юникод, так что вы должны декодировать его как utf-8:

import csv 
def unicode_reader('your_file_name',delimiter='your_delimiter', **kwargs): 
    spamreader = csv.reader('your_file_name',delimiter='your_delimiter', **kwargs) 
    for row in spamreader: 
     yield [unicode(w, 'utf-8') for w in row] 

reader = unicode_csv_reader(open('your_file_name')) 
for tex in reader: 
    print tex

источник

2014-10-05 07:09:37 Kasramvd

Я пользователь ipython. и я использую этот код. но я смотрю эту ошибку ---- UnicodeDecodeError: кодек 'utf8' не может декодировать байт 0xc7 в позиции 0: недопустимый остаток продолжения –

, поэтому измените 'utf-8' на' ISO-8859-1' и дайте мне результат! – Kasramvd

Сломанные корейские строки при чтении DataFrame из CSV

ответ

Смежные вопросы