2014-10-27 1 views
13

У меня есть входной файл, где каждое значение хранится в виде строки. Он находится внутри файла csv с каждой записью внутри двойных кавычек.элементы с двойными кавычками в csv can not read with pandas

Пример файла:

"column1","column2", "column3", "column4", "column5", "column6" 
"AM", "07", "1", "SD", "SD", "CR" 
"AM", "08", "1,2,3", "PR,SD,SD", "PR,SD,SD", "PR,SD,SD" 
"AM", "01", "2", "SD", "SD", "SD" 

Есть только шесть колонн. Какие параметры мне нужно ввести в pandas read_csv, чтобы прочитать это правильно?

В настоящее время я пытаюсь:

import pandas as pd 
df = pd.read_csv(file, quotechar='"') 

, но это дает мне сообщение об ошибке:. CParserError: Error tokenizing data. C error: Expected 6 fields in line 3, saw 14

Что, очевидно, означает, что он не обращая внимания на " 'и разбора каждую запятую в качестве поля Однако для строки 3 столбцы с 3 по 6 должны содержать строки с запятыми («1,2,3», «PR, SD, SD», «PR, SD, SD», «PR, SD, SD»,)

Как получить pandas.read_csv, чтобы проанализировать это правильно ?

Спасибо.

+0

Если вы хорошо с регулярным выражением вы можете использовать его в разделительном arguement к read_csv ... http://stackoverflow.com/questions/24091356/pandas-read-csv-with-final-column-containing -commas – rhaskett

ответ

7

Это будет работать. Он возвращается к парсеру python (поскольку у вас есть нерегулярные разделители, например, они являются запятой, а иногда и пространством). Если у вас есть только запятые, он будет использовать c-parser и будет намного быстрее.

In [1]: import csv 

In [2]: !cat test.csv 
"column1","column2", "column3", "column4", "column5", "column6" 
"AM", "07", "1", "SD", "SD", "CR" 
"AM", "08", "1,2,3", "PR,SD,SD", "PR,SD,SD", "PR,SD,SD" 
"AM", "01", "2", "SD", "SD", "SD" 

In [3]: pd.read_csv('test.csv',sep=',\s+',quoting=csv.QUOTE_ALL) 
pandas/io/parsers.py:637: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators; you can avoid this warning by specifying engine='python'. 
    ParserWarning) 
Out[3]: 
    "column1","column2" "column3" "column4" "column5" "column6" 
"AM"    "07"  "1"  "SD"  "SD"  "CR" 
"AM"    "08" "1,2,3" "PR,SD,SD" "PR,SD,SD" "PR,SD,SD" 
"AM"    "01"  "2"  "SD"  "SD"  "SD" 
Смежные вопросы