1
Я пытаюсь сравнить два очень больших файла csv и сравнить их с помощью свободного текстового поля в обоих. Я пробовал использовать awk, например.Сравните два больших файла csv по полю и сохраните вывод
awk -F, 'FNR==NR{a[$2]++;next} a[$2]' table1.csv table2.csv > duplicates.csv
, но выходной файл csv некорректно отформатирован, возможно, потому что свободное текстовое поле содержит запятые. Я хотел бы сохранить всю повторяющуюся строку в таблице1 в дублирующей таблице. Спасибо за вашу помощь.
разборе CSV трудно с AWK. Как поля с запятыми цитируются или исчезают? – Gabe
Они просто цитируются и не содержат пробелов между запятыми и кавычками между полями. Я могу читать данные в python/pandas просто отлично, но мне было интересно, есть ли там хороший однострочный интерфейс. –
Можете ли вы предоставить несколько образцов ввода и вывода? Было бы полезно. – Birei