Я пытаюсь прочитать файл .idx размером около 1.89Gb. Если я пишу:Ошибка чтения_таблицы при чтении файла .idx
indexfile=pd.read_table("C:\Edgar Zip files\2001\company.idx")
Я получаю выход как:
- Название компании Форма Тип CIK Дата Имя файла Поданный
- 0 033 ООО УПРАВЛЕНИЕ АКТИВАМИ/...
- 1 033 АКТИВ УПРАВЛЕНИЕ ООО/...
- 2 1 800 КОНТАКТЫ INC ...
- 3 1 800 КОНТАКТЫ INC ...
- 4 1 800 ЦВЕТЫ COM INC ...
Где все столбцы объединяются вместе в одном столбце
Если я:
indexfile=pd.read_table("C:\Edgar Zip files\2001\company.idx",sep=" ")
Я получаю ошибку:
CParserError: Error tokenizing data. C error: Expected 69 fields in line 4, saw 72
я могу использовать:
indexfile=pd.read_table("C:\Edgar Zip files\2001\company.idx",error_bad_lines=False)
Но это будет просто удалить большинство моих данных.
Есть ли обходной путь?
PS: Ссылка на образец .idf файла SEC EDGAR. Загрузите файл company.idx.
все еще получаю ошибку:> Прогнозный 32 полей в строке 2, увидел 38 – anonymous
The --------------------- в строке 2 может быть причиной проблема. Попробуйте добавить error_bad_lines = False или удалите вторую строку из company.idx и попробуйте. – rohithvsm
Я действительно удалил вторую строку, но я все еще получаю ошибку. Также с error_bad_lines = False пропускается большая часть записей в таблице – anonymous