У меня около 350 текстовых файлов (и каждый файл составляет около 75 МБ). Я пытаюсь объединить все файлы и удалить повторяющиеся записи. Файл находится в следующем формате:объединить несколько текстовых файлов и удалить дубликаты
ip1,dns1
ip2,dns2
...
Я написал небольшой скрипт, чтобы сделать это
#!/bin/bash
for file in data/*
do
cat "$file" >> dnsFull
done
sort dnsFull > dnsSorted
uniq dnsSorted dnsOut
rm dnsFull dnsSorted
Я делаю эту обработку часто и было интересно, если есть что-то я мог бы сделать, чтобы улучшить обработка в следующий раз при запуске. Я открыт для любого языка программирования и предложений. Благодаря!
вы также можете дать sort -ma try -> он будет сортировать отдельные файлы и объединять их соответственно, следовательно, это должно сэкономить немало времени .... опция -m была доступна espl для сценария вроде этого ... ie sort -m file * | uniq -u – nsd