У меня есть входной файл, где каждое значение хранится в виде строки. Он находится внутри файла csv с каждой записью внутри двойных кавычек.элементы с двойными кавычками в csv can not read with pandas
Пример файла:
"column1","column2", "column3", "column4", "column5", "column6"
"AM", "07", "1", "SD", "SD", "CR"
"AM", "08", "1,2,3", "PR,SD,SD", "PR,SD,SD", "PR,SD,SD"
"AM", "01", "2", "SD", "SD", "SD"
Есть только шесть колонн. Какие параметры мне нужно ввести в pandas read_csv, чтобы прочитать это правильно?
В настоящее время я пытаюсь:
import pandas as pd
df = pd.read_csv(file, quotechar='"')
, но это дает мне сообщение об ошибке:. CParserError: Error tokenizing data. C error: Expected 6 fields in line 3, saw 14
Что, очевидно, означает, что он не обращая внимания на " 'и разбора каждую запятую в качестве поля Однако для строки 3 столбцы с 3 по 6 должны содержать строки с запятыми («1,2,3», «PR, SD, SD», «PR, SD, SD», «PR, SD, SD»,)
Как получить pandas.read_csv, чтобы проанализировать это правильно ?
Спасибо.
Если вы хорошо с регулярным выражением вы можете использовать его в разделительном arguement к read_csv ... http://stackoverflow.com/questions/24091356/pandas-read-csv-with-final-column-containing -commas – rhaskett