2015-06-03 2 views
0

Я использую Solr 5.0, Nutch 1.10 с cygwin на сервере Windows 2008 R2. Я выдачи команды как:Solr 5.0 и Nutch 1.10

бен/ползать -D URLs/бен/URLs ползать/2

Как мне известно 2, количество раундов ползет. Когда я выполняю эту команду и читаю crawldb, я получаю только 127 url, что очень мало по сравнению с ожидаемым. Кроме того, он не сканируется на более глубокой глубине. Когда я выполняю эту команду для передачи данных в Solr:

бен/Nutch solrindex http://127.0.0.1:8983/solr/thetest ползать/crawldb -linkdb ползать/linkdb ползать/сегменты/*

, а затем выполнить поиск, то я получаю только 20 URL, во всем. Может кто-нибудь помочь. Мне нужно сделать более глубокую глубину.

ответ

0

Вы можете увеличить количество раундов, увеличив количество URL-адресов. Вы можете увидеть количество URL-адресов в каждом раунде в hadoop.log файл присутствует в ./logs папка.

Вы можете передать этот link

Использование: ползание [-i | --index] [-D "ключ = значение"] -i | --index Индексы ползать результаты в сконфигурированной индексатор -DA Свойство Java для передачи на Nutch вызывает Каталог семян Dir, в котором нужно искать файл семян Сканирование каталога Dir, в котором сохраняются каталоги crawl/link/segment Num Rounds Количество раундов для запуска этого обхода для Пример: bin/crawl -i -D solr.server.url = http://localhost:8983/solr/ URL/TestCrawl/2

bin/crawl -i -D solr.server.url=$solrUrl cores/$coreName/urls cores/$coreName/crawl 2 
Смежные вопросы