У меня есть файл csv, который использует þ в качестве цитаты, и символ абзаца как значение, разделенное запятыми.read_csv using необычные разделители
Использование подкласса csv.Dialect не работает. Pandas не интерпретирует значение þ как строку.
Любые идеи?
# This works when the delimiters are more standard (; ")
# But really trying to make it work with the ASCII chars commented out below
import csv
f = open('./data/Test_Quote_SemiColon.dat')
class my_dialect(csv.Dialect):
lineterminator = '\n'
delimiter = ';' # ASCII: 020
quotechar = '"' # ASCII: 254
reader = csv.reader(f, dialect=my_dialect, quoting=1)
for line in reader:
print line
Вот (цитата и запятой) данные:
"BEGID"; "ENDID", "Имя", "В", "С", "CC", "BCC" «ABC_001», «ABC_004», «Smith, John», «Doe, John», «Roe, Jane», «"; "" "ABC_005", "ABC_007", "Smith, John", "Doe, John ";"
Можете ли вы дать небольшой пример вам данных (в прошлом часть вашего файла CSV, или что-то, что выглядит, как он и повторяет эту проблему), а также код, который вы использовали для чтения с помощью панд. – joris
Какая кодировка используется на csv? Вы пробовали изменить кодировку? Знаете ли вы коды ASCII этих символов, поэтому вы можете сделать sep = 'something' и quote = 'something'? – Inox