0

Я хочу просканировать только определенные домены на nutch. Для этого я установил db.ignore.external.links в правда, как это было сказано в этом FAQ linkКак предотвратить сканирование внешних ссылок с помощью apache nutch?

Проблема заключается в том Nutch начинает сканировать только ссылки в списке семян. Например, если я поместил «nutch.apache.org» в seed.txt, он найдет только тот же url (nutch.apache.org).

Получаю результат, выполнив скрипт сканирования с глубиной 200. И он заканчивается одним циклом и генерирует его ниже.

Как я могу решить эту проблему?

Я использую Apache Nutch 1.11

Generator: starting at 2016-04-05 22:36:16 
Generator: Selecting best-scoring urls due for fetch. 
Generator: filtering: false 
Generator: normalizing: true 
Generator: topN: 50000 
Generator: 0 records selected for fetching, exiting ... 
Generate returned 1 (no new segments created) 
Escaping loop: no more URLs to fetch now 

С наилучшими пожеланиями

ответ

2

Вы хотите получать только страницы из определенного домена.

Вы уже пробовали db.ignore.external.links, но это ограничивает все, кроме URL-адреса seek.txt.

Вы должны попробовать conf/regex-urlfilter.txt как в примере nutch1 tutorial:

+^http://([a-z0-9]*\.)*your.specific.domain.org/ 
1

Вы используете "Crawl" сценарий? Если да, убедитесь, что вы даете уровень, который больше 1. Если вы запустите что-то вроде этого «bin/crawl seedfoldername crawlDb http://solrIP:solrPort/solr 1». Он будет сканировать только URL-адреса, указанные в файле seed.txt

И для обхода определенного домена вы можете использовать файл regex-urlfiltee.txt.

+0

Да я использую ползание скрипт с 200 глубиной. Когда я редактирую, ссылки фильтра фильтра ссылок те же, что и раньше. –

+1

Если вы запустили скрипт crawl, я предлагаю удалить вашу папку crawldb, а затем перезапустить .. – AVINASH

+0

, а также убедиться, что на вашей странице URL-адреса семян есть другие ссылки, которые сканер может сканировать в – AVINASH

0

Добавить следующее свойство в Nutch-site.xml

<property> 
<name>db.ignore.external.links</name> 
<value>true</value> 
<description>If true, outlinks leading from a page to external hosts will be ignored. This is an effective way to limit the crawl to include only initially injected hosts, without creating complex URLFilters. </description> 
</property> 
Смежные вопросы