Я просматриваю пару веб-сайтов с Apache Nutch, но я заметил, что на каждой итерации 95% веб-сайтов, которые он просканирует, уже находятся в базе данных. Я использую сканирование скрипта в каталоге bin с партиями 50k URL.Apache Nutch избегает повторного набора
Мне было интересно, могу ли я избежать повторного набора URL-адресов, которые у меня уже есть в базе данных.
Значение устанавливается по умолчанию, так как вы укажете его, оно должно появляться каждые 30 дней. У меня есть только ограниченный список из 3000 сайтов, из которых он может получить. Может ли это повлиять на мое сканирование? – rodi
@rodi не уверен, что я понимаю, в чем проблема. Если вы хотите не обновлять URL-адреса, которые вы уже выбрали, измените конфигурацию db.fetch.interval, как описано. Я обновил ответ с помощью возможного объяснения, вы можете уточнить, что вы имеете в виду? –