2012-01-27 2 views

ответ

1

Вот вещи, которые принимаются во внимание:

  1. Партитура URL
  2. сколько ссылок, принадлежащие одному и тому же хосту разрешено сканировать.
  3. Получено ли время повторного ввода URL-адреса?
+0

У меня есть два сайта для ползания в nutch 2.1, но только один сайт обходит. Как сканировать второй сайт вместе с первым сайтом? Я добавил оба сайта в файл regex-urlfilter, но только 20 URL-адресов были исправлены со второго сайта, в то время как первый сайт имеет уже загруженные URL-адреса 16k, а новые URL-адреса получаются только с первого сайта. – peter

+0

@peter Несколько факторов могут быть там .. это 2-й сайт с жесткими ограничениями на роботы? есть ли какие-либо исключения при получении ответа HTTP/контента, такого как ReadTimeOut, Socket etc? есть ли URL-адреса второго хоста, которые имеют право на получение? могут ли те, которые выбраны, создавать исходящие ссылки? Запуск отдельного локального режима сканирования на втором хосте и проверка журналов, сегментов и crawldb помогут выяснить проблему –

+0

. У 2-го сайта есть больше каталогов, которые запрещены, но я не думаю, что это влияет на выборку. существует около 180 URL-адресов, которые отбираются. как запустить отдельный обход локального режима? Я использую mysql, поэтому сегментов и crawldb-папок нет. – peter

Смежные вопросы