2015-01-15 3 views
0

У меня есть файл 500MB +, который был создан путем сохранения большой таблицы Excel в формате unicode. Я бегу окна 7.Чтение большого файла excel со специальными символами в pandas

Мне нужно открыть файл с python pandas. До сих пор я использовал для преобразования файла из ANSI в UTF-8 с помощью notepad ++, но теперь файл слишком велик, а затем открываем его с помощью блокнота ++.

У меня есть иврит, французский, шведский, норвежский, датский специальные символы.

  • Panda's read_excel слишком медленно * Я отпустил его на несколько минут, не видя выхода.
  • iconv: видимо, я не могу получить право кодирования, я просто получить список закладок разделенных нулей, когда я tried:

    Iconv -f «CP858» -t «UTF-8» file1.txt > file2.txt

    Iconv -f "окна-1252" -t "UTF-8" file1.txt> file2.txt

Edit

iconv -f "UTF-16le" -t "UTF-8" file1.txt > file2.txt приводит к очень странному поведению: строка между линиями разрезается. Все выглядит нормально, но только строки 80K фактически конвертируются.

Edit 2

.. read_csv с encoding='utf-16le' читает правильно файл. Тем не менее, я до сих пор не понимаю, почему iconv испортил это.

ответ

0

read_csv с encoding='utf-16le' верно читает файл. Тем не менее, я до сих пор не понимаю, почему iconv испортил это.