2016-05-04 3 views
0

Я просматриваю пару веб-сайтов с Apache Nutch, но я заметил, что на каждой итерации 95% веб-сайтов, которые он просканирует, уже находятся в базе данных. Я использую сканирование скрипта в каталоге bin с партиями 50k URL.Apache Nutch избегает повторного набора

Мне было интересно, могу ли я избежать повторного набора URL-адресов, которые у меня уже есть в базе данных.

ответ

0

С настройками по умолчанию URL-адреса должны быть перенаправлены каждые 30 дней только db.fetch.interval.default. вы можете увеличить это значение, а также значение db.fetch.interval.max. URL-адреса всегда проверяются Nutch, даже если они отмечены как GONE.

EDIT Ваша проблема также может заключаться в том, что несколько имен хостов представлены в сегментах и ​​что в результате вы не обнаруживаете и не сканируете URL-адреса из других источников. Если это так, отредактируйте generate.max.count и generate.count.mode

+0

Значение устанавливается по умолчанию, так как вы укажете его, оно должно появляться каждые 30 дней. У меня есть только ограниченный список из 3000 сайтов, из которых он может получить. Может ли это повлиять на мое сканирование? – rodi

+1

@rodi не уверен, что я понимаю, в чем проблема. Если вы хотите не обновлять URL-адреса, которые вы уже выбрали, измените конфигурацию db.fetch.interval, как описано. Я обновил ответ с помощью возможного объяснения, вы можете уточнить, что вы имеете в виду? –

Смежные вопросы