Apache Nutch с Lucene

У нас есть устаревший код в Lucene, и в качестве нового требования нам нужно использовать Apache Nutch для сканирования. Это означает, что Apache Nutch должен сканировать контент, а затем существующие анализаторы Lucene должны генерировать индексы.Apache Nutch с Lucene

Моя проблема в том, что Apache Nutch уже генерирует индексы, из которых я не могу сгенерировать контент. Мы не хотим использовать индексы Nutch.

Вы посоветуете мне использовать еще один гусеничный ход или все еще можно использовать Apache Nutch для этого конца?

источник

2013-08-22 Ivo Kurtanovic

http://grokbase.com/t/nutch/user/107nxs32ke/best-way-to-crawl -but-not-index – Chiron

Спасибо за ссылку, я просто выполнил все, что упоминалось в ссылке, но как я могу восстановить содержимое обхода? Потому что я вижу два типа файлов: индекс и данные. Все, что я хочу, это запустить анализаторы Lucene. –

Вы можете использовать solr для целей индексации. Solr - это поисковый сервер с открытым исходным кодом, основанный на библиотеке поиска Lucene Java и легко настраиваемый с помощью Nutch.

Команда:

ползать URLs бен/Nutch -solr http://solr.server:8983/solr/ -depth глубина -topN TopN

Он будет ползти семян URLs список до заданной глубины и индексировать их в указанный Solr сервер. Solr внутренне создает индексы Lucene ..

Ссылка: http://wiki.apache.org/nutch/NutchTutorial

источник

2013-08-22 08:25:56 mgs

У меня нет возможности использовать SOLR на данный момент, это ограничение, которое у меня есть, и я должен использовать существующие Lucene Analyzers для целей индексирования. Индексы, созданные Nutch, по-видимому, отличаются от индексов Lucene, я не уверен, есть ли способ использовать чистые Lucene Analyzers с Nutch Segments. –

Nutch: Это веб или файл гусеничный, который будет сканировать через веб-страницы или в общих папках и получать и анализировать содержимое. Он был разработан для интеграции с Apache Solr, поэтому он имеет множество функций, самый удобный способ передачи контента, который он сгенерировал для Solr, но Nutch не делает индексацию.

Solr: Solr - это поисковый сервер, который будет индексировать ваши данные для вас с помощью Lucene. Как только Nutch передаст документы (через http), Solr проиндексирует их и сохранит индексы Lucene. Существует приятный интерфейс поиска, позволяющий запросить Solr, который вернет результаты в формате XML.

Использование Solr и Nutch - они были разработаны, чтобы работать вместе

Заканчивать Setting Up Solr 4 и Setting Up Nutch

источник

2013-08-22 08:35:36

Apache Nutch с Lucene

ответ

Смежные вопросы