У нас есть устаревший код в Lucene, и в качестве нового требования нам нужно использовать Apache Nutch для сканирования. Это означает, что Apache Nutch должен сканировать контент, а затем существующие анализаторы Lucene должны генерировать индексы.Apache Nutch с Lucene
Моя проблема в том, что Apache Nutch уже генерирует индексы, из которых я не могу сгенерировать контент. Мы не хотим использовать индексы Nutch.
Вы посоветуете мне использовать еще один гусеничный ход или все еще можно использовать Apache Nutch для этого конца?
http://grokbase.com/t/nutch/user/107nxs32ke/best-way-to-crawl -but-not-index – Chiron
Спасибо за ссылку, я просто выполнил все, что упоминалось в ссылке, но как я могу восстановить содержимое обхода? Потому что я вижу два типа файлов: индекс и данные. Все, что я хочу, это запустить анализаторы Lucene. –