На какой criteia nutch выбирает TopN docs при сканировании?

На какой criteia nutch выбирает TopN docs при сканировании? И как nutch создает сегменты.?На какой criteia nutch выбирает TopN docs при сканировании?

источник

2012-01-27 search_dev

Вот вещи, которые принимаются во внимание:

Партитура URL
сколько ссылок, принадлежащие одному и тому же хосту разрешено сканировать.
Получено ли время повторного ввода URL-адреса?

источник

2012-04-03 15:29:19

У меня есть два сайта для ползания в nutch 2.1, но только один сайт обходит. Как сканировать второй сайт вместе с первым сайтом? Я добавил оба сайта в файл regex-urlfilter, но только 20 URL-адресов были исправлены со второго сайта, в то время как первый сайт имеет уже загруженные URL-адреса 16k, а новые URL-адреса получаются только с первого сайта. – peter

@peter Несколько факторов могут быть там .. это 2-й сайт с жесткими ограничениями на роботы? есть ли какие-либо исключения при получении ответа HTTP/контента, такого как ReadTimeOut, Socket etc? есть ли URL-адреса второго хоста, которые имеют право на получение? могут ли те, которые выбраны, создавать исходящие ссылки? Запуск отдельного локального режима сканирования на втором хосте и проверка журналов, сегментов и crawldb помогут выяснить проблему –

. У 2-го сайта есть больше каталогов, которые запрещены, но я не думаю, что это влияет на выборку. существует около 180 URL-адресов, которые отбираются. как запустить отдельный обход локального режима? Я использую mysql, поэтому сегментов и crawldb-папок нет. – peter

На какой criteia nutch выбирает TopN docs при сканировании?

ответ

Смежные вопросы