У меня есть файл данных, как например:Импорт данных в DataFrame с дополнительными запятыми
ID,ORIG,TIME,TEXT
364,1,7-10-15,This works fine
16254,1,7-10-15,But, I don't work :(
9846,0,7-10-15,Neither, do, I
Когда я импортировать с помощью панд Я пытаюсь получить следующее:
+-------+------+---------+----------------------+
| ID | ORIG | TIME | TEXT |
+=======+======+=========+======================+
| 3464 | 1 | 7-10-15 | This works fine |
+-------+------+---------+----------------------+
| 16254 | 1 | 7-10-15 | But, I don't work :(|
+-------+------+---------+----------------------+
| 9846 | 0 | 7-10-15 | Neither, do, I |
+-------+------+---------+----------------------+
Используя мой сценарий data_df = pd.read_csv('data.csv', low_memory=False)
, когда я импортирую 1-ю строку, все в порядке (без индекса).
Однако со второй строкой, так как там есть запятая, данные, которые первоначально были в ID, перемещаются в индексный столбец, и все перемещается 1 влево.
+-------+----+---------+-----------------+-----------------+
| | ID | ORIG | TIME | TEXT |
+=======+====+=========+=================+=================+
| 3464 | 1 | 7-10-15 | This works fine | NaN |
+-------+----+---------+-----------------+-----------------+
| 16254 | 1 | 7-10-15 | But | I don't work :(|
+-------+----+---------+-----------------+-----------------+
Образец повторяется с более запятыми, находящимися в последнем столбце. Возможно, solution - это переписать файл, но я пытаюсь найти способ просто импортировать его, не переписывая каждый файл (у меня около 65+).
Мой вопрос:
Можно ли импортировать (в строке) первый столбец в «ID» второй колонке на «туринг» третий столбец «TIME» и все остальное в «TEXT»?
Имеются ли в ваших данных все эти '+' и '-' и' = '? – DSM
Нет, это просто для просмотра. – Leb
Можете ли вы добавить, как выглядит фактический ввод? –