Я хочу просканировать только определенные домены на nutch. Для этого я установил db.ignore.external.links
в правда, как это было сказано в этом FAQ linkКак предотвратить сканирование внешних ссылок с помощью apache nutch?
Проблема заключается в том Nutch начинает сканировать только ссылки в списке семян. Например, если я поместил «nutch.apache.org» в seed.txt, он найдет только тот же url (nutch.apache.org).
Получаю результат, выполнив скрипт сканирования с глубиной 200. И он заканчивается одним циклом и генерирует его ниже.
Как я могу решить эту проблему?
Я использую Apache Nutch 1.11
Generator: starting at 2016-04-05 22:36:16
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: false
Generator: normalizing: true
Generator: topN: 50000
Generator: 0 records selected for fetching, exiting ...
Generate returned 1 (no new segments created)
Escaping loop: no more URLs to fetch now
С наилучшими пожеланиями
Да я использую ползание скрипт с 200 глубиной. Когда я редактирую, ссылки фильтра фильтра ссылок те же, что и раньше. –
Если вы запустили скрипт crawl, я предлагаю удалить вашу папку crawldb, а затем перезапустить .. – AVINASH
, а также убедиться, что на вашей странице URL-адреса семян есть другие ссылки, которые сканер может сканировать в – AVINASH