Ошибка чтения_таблицы при чтении файла .idx

Я пытаюсь прочитать файл .idx размером около 1.89Gb. Если я пишу:Ошибка чтения_таблицы при чтении файла .idx

indexfile=pd.read_table("C:\Edgar Zip files\2001\company.idx")

Я получаю выход как:

Название компании Форма Тип CIK Дата Имя файла Поданный
0 033 ООО УПРАВЛЕНИЕ АКТИВАМИ/...
1 033 АКТИВ УПРАВЛЕНИЕ ООО/...
2 1 800 КОНТАКТЫ INC ...
3 1 800 КОНТАКТЫ INC ...
4 1 800 ЦВЕТЫ COM INC ...

Где все столбцы объединяются вместе в одном столбце

Если я:

indexfile=pd.read_table("C:\Edgar Zip files\2001\company.idx",sep=" ")

Я получаю ошибку:

CParserError: Error tokenizing data. C error: Expected 69 fields in line 4, saw 72

я могу использовать:

indexfile=pd.read_table("C:\Edgar Zip files\2001\company.idx",error_bad_lines=False)

Но это будет просто удалить большинство моих данных.

Есть ли обходной путь?

PS: Ссылка на образец .idf файла SEC EDGAR. Загрузите файл company.idx.

источник

2015-07-16 anonymous

Ваши записи в столбцах также содержат пробелы. Поэтому используйте разделители.

indexfile=pd.read_table("C:\Edgar Zip files\2001\company.idx",sep=" ")

источник

2015-07-16 21:05:13 rohithvsm

все еще получаю ошибку:> Прогнозный 32 полей в строке 2, увидел 38 – anonymous

The --------------------- в строке 2 может быть причиной проблема. Попробуйте добавить error_bad_lines = False или удалите вторую строку из company.idx и попробуйте. – rohithvsm

Я действительно удалил вторую строку, но я все еще получаю ошибку. Также с error_bad_lines = False пропускается большая часть записей в таблице – anonymous

Ошибка чтения_таблицы при чтении файла .idx

ответ

Смежные вопросы