2012-06-01 5 views
10

Я недавно начал работать над nutch, и я пытаюсь понять, как это работает. Насколько я знаю, Nutch в основном используется для сканирования в Интернете, а solr/Lucene используется для индексации и поиска. Но когда я читаю документацию по ореху, он говорит, что nutch также инвертирует индексирование. Использует ли Lucene внутренне для индексирования или имеет ли какую-то другую библиотеку для индексирования? Если для индексирования используется solr/lucene, то зачем нужно настраивать solr с помощью гайки, как говорится в учебнике по орехам?nutch vs solr indexing

Выполняется ли индексирование по умолчанию. Я имею в виду, что я запускаю эту команду, чтобы начать сканирование. Здесь индексирование происходит?

bin/nutch crawl urls -dir crawl -depth 3 -topN 5 

Или индексирование происходит только в этом случае. (В соответствии с учебником: Если у вас есть ядро ​​Solr уже установило и хотите индексировать к ней, вам необходимо добавить параметр -solr к вашему ползанию команды, например)

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5 

ответ

4

Посмотрев here может быть полезными , При запуске первой команды:

bin/nutch crawl urls -dir crawl -depth 3 -topN 5 

вы ползет, а это значит, что Nutch будет создавать свои собственные внутренние данные, состоящие из:

  • crawldb
  • linkdb
  • набор отрезков

вы можете увидеть их в следующих каталогах, которые создают d во время выполнения команды сканирования:

  • ползать/crawldb
  • ползать/linkdb
  • ползать/сегменты

Вы можете думать, что данные в какой-то базе данных, где Nutch магазины выползли данные. Это не имеет никакого отношения к инвертированному индексу.

После процесса обхода вы можете индексировать свои данные в экземпляре Solr. Вы можете сканировать и затем индекс запуск одной команды, которая является второй командой из вашего вопроса:

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5 

В противном случае вы можете запустить вторую команду после команды обхода, специфичным для индексации в Solr, но вы должны предоставить путь ваших crawldb, linkdb и сегментов:

bin/nutch solrindex http://localhost:8983/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/* 
+0

Спасибо за ответ. Просто перефразируя его один раз, nutch просто сканирует и хранит данные в db, и он не делает индексацию сам по себе. Solr необходимо индексировать. Я прав? У меня возникло еще одно сомнение относительно добавления новых полей для индексации. Я написал образец плагина для добавления нового поля, следуя учебным пособиям на веб-сайте apache nutch.Будет ли этот плагин автоматически загружаться, когда я начну сканирование, или плагин нужно запустить отдельно. Я последовал всем шагам и только начал ползать. Я не видел никаких ошибок, но я не видел никаких вставленных полей. Я проверил в crawldb, а также в сегментах. – CRS

+0

@CRS Вы правы с вашим перефразированием, правильно! Что касается плагина, который я не знаю, я никогда не работал с плагинами nutch, но, возможно, новый вопрос с некоторыми подробностями (и кодом) помог бы. – javanna

+0

Еще раз спасибо. Я сделаю то же самое. Один последний связанный вопрос. Когда Solr используется для индексации данных, просканированных гайкой, все индексы сохраняются в db ореха или в db Solr? Если Solr, то знаете ли вы, какой каталог он будет сохранен. – CRS

3

Вы можете быть путаетесь унаследованными версиями Nutch и связанной с ними интерактивной документацией. Первоначально он создал свой собственный индекс и имел свой собственный интерфейс веб-поиска. Использование Solr стало вариантом, требующим дополнительной настройки и возиться. Начиная с 1.3 части индексации и сервера были удалены, и теперь предполагается, что Nutch будет использовать Solr.

Смежные вопросы