2013-03-21 2 views
0

У меня есть txt-файл (A.txt) с 20 000 доменных имен, по одному на строку. У меня есть еще один txt-файл (B.txt), который содержит тысячи записей Whois, скомпилированных вместе. Я хочу посмотреть, какие домены в A.txt не указаны в B.txt. Тривиально делать это один за другим, но как я могу это сделать в массе? БлагодаряМассовая ссылка в Notepad ++

+0

Использование [таблицы/Excel] (http://stackoverflow.com/questions/4160243/join-two-spreadsheets-on-a-common-column-in-excel-or-openoffice) не может быть и речи? – Primoz

ответ

0

Вы можете Редактируем файл a.txt иметь линии стиля example.com A other stuff и файл b.txt иметь строки в форме example.com B other stuff. Затем соберите два файла вместе. Затем запустите замену регулярного выражения Notepad ++, выполнив поиск ^([^ ]+) A .*\r\n(\1 B) и заменив его на \2. Эффект заключается в том, что удаляется любая строка A.txt, которая соответствует B.txt, оставив строку B.txt. Если есть несколько строк A.txt, которые соответствуют одному B.txt, тогда запустите замену два или более раза, пока не будут заменены никакие строки. Наконец, удалите строки B.txt (используйте регулярное выражение, чтобы найти и пометить строки, которые ищут ^([^ ]+) B, а затем удалить закладки), оставив непревзойденные линии A.txt.

Не знаю формат исходных файлов A.txt и B.txt Я не могу предложить регулярное выражение для размещения URL-адреса, за которым следует A или B в начале строк.

Смежные вопросы