0
На какой criteia nutch выбирает TopN docs при сканировании? И как nutch создает сегменты.?На какой criteia nutch выбирает TopN docs при сканировании?
На какой criteia nutch выбирает TopN docs при сканировании? И как nutch создает сегменты.?На какой criteia nutch выбирает TopN docs при сканировании?
Вот вещи, которые принимаются во внимание:
У меня есть два сайта для ползания в nutch 2.1, но только один сайт обходит. Как сканировать второй сайт вместе с первым сайтом? Я добавил оба сайта в файл regex-urlfilter, но только 20 URL-адресов были исправлены со второго сайта, в то время как первый сайт имеет уже загруженные URL-адреса 16k, а новые URL-адреса получаются только с первого сайта. – peter
@peter Несколько факторов могут быть там .. это 2-й сайт с жесткими ограничениями на роботы? есть ли какие-либо исключения при получении ответа HTTP/контента, такого как ReadTimeOut, Socket etc? есть ли URL-адреса второго хоста, которые имеют право на получение? могут ли те, которые выбраны, создавать исходящие ссылки? Запуск отдельного локального режима сканирования на втором хосте и проверка журналов, сегментов и crawldb помогут выяснить проблему –
. У 2-го сайта есть больше каталогов, которые запрещены, но я не думаю, что это влияет на выборку. существует около 180 URL-адресов, которые отбираются. как запустить отдельный обход локального режима? Я использую mysql, поэтому сегментов и crawldb-папок нет. – peter