2015-07-16 3 views
0

Я пытаюсь прочитать файл .idx размером около 1.89Gb. Если я пишу:Ошибка чтения_таблицы при чтении файла .idx

indexfile=pd.read_table("C:\Edgar Zip files\2001\company.idx")

Я получаю выход как:

  • Название компании Форма Тип CIK Дата Имя файла Поданный
  • 0 033 ООО УПРАВЛЕНИЕ АКТИВАМИ/...
  • 1 033 АКТИВ УПРАВЛЕНИЕ ООО/...
  • 2 1 800 КОНТАКТЫ INC ...
  • 3 1 800 КОНТАКТЫ INC ...
  • 4 1 800 ЦВЕТЫ COM INC ...

Где все столбцы объединяются вместе в одном столбце


Если я:

indexfile=pd.read_table("C:\Edgar Zip files\2001\company.idx",sep=" ")

Я получаю ошибку:

CParserError: Error tokenizing data. C error: Expected 69 fields in line 4, saw 72


я могу использовать:

indexfile=pd.read_table("C:\Edgar Zip files\2001\company.idx",error_bad_lines=False)

Но это будет просто удалить большинство моих данных.

Есть ли обходной путь?

PS: Ссылка на образец .idf файла SEC EDGAR. Загрузите файл company.idx.

ответ

0

Ваши записи в столбцах также содержат пробелы. Поэтому используйте разделители.

indexfile=pd.read_table("C:\Edgar Zip files\2001\company.idx",sep=" ") 
+0

все еще получаю ошибку:> Прогнозный 32 полей в строке 2, увидел 38 – anonymous

+0

The --------------------- в строке 2 может быть причиной проблема. Попробуйте добавить error_bad_lines = False или удалите вторую строку из company.idx и попробуйте. – rohithvsm

+0

Я действительно удалил вторую строку, но я все еще получаю ошибку. Также с error_bad_lines = False пропускается большая часть записей в таблице – anonymous

Смежные вопросы