Моей проблемы:Regex для очистки CSV из запутанных символов
Я использую CSV, который вышел из некоторых программ, и проблема в том, что эта программа не обрабатывает CSV так хорошо причины есть некоторые строки в csv, которые содержат в себе цитату и что является обертыванием строки, также являются кавычками, поэтому у меня возникают проблемы с ее синтаксическим анализом.
так это нормально CSV:
"one","two","three"
и вот мой случай:
"one","tw"o","three"
Так У меня возникли проблемы при разборе строки, как "tw"o"
. В основном это проблема с программным обеспечением, которое выводит файл, и я не могу редактировать это программное обеспечение.
Итак, я думал, что могу создать регулярное выражение, которое будет принимать ненужные цитаты или запятые, и убедитесь, что каждая строка завернута в кавычки и разделена запятой, кто-то знает, как я могу ее достичь?
им с помощью tototoshi библиотеки для Скале
Существует ли конкретная причина, почему вы не используете пакет 'csv' для Python для обработки файла' .csv'? –
@WillemVanOnsem im, использующий tototoshi для scala, но эти библиотеки не могут проанализировать его, поскольку он не является правильным форматом ... если это были «один», «два», «три» без проблем, а его «один», «два», o "," three ", так что библиотека не может разобрать его – JohnBigs
Почему вы всегда смотрите на регулярные выражения? Даже если вы найдете что-то для этого, я предполагаю, что это может выглядеть довольно ужасно. Heck: вам нужно ** других ** людей даже подумайте, как легко вам будет ** поддерживать ** это регулярное выражение с течением времени? Смысл: иногда нужно подумать о том, чтобы сесть и написать свой собственный синтаксический анализатор и сделать что-то явно, вместо того, чтобы выбрасывать регулярное выражение монстра , – GhostCat