Я совершенно новичок в Apache SOLR/Lucene, но хочу использовать его для индексирования документов PDF.Настройка приложения SOLR для индексирования pdf-документов
Я начал учиться, следуя официальной учебник:
[Apache SOLR 4.6.0 Tutorial][1]
Я могу достичь точки в учебнике с заголовком «Индексация данных», где они индексных два XML-файлов.
Тем не менее, я не могу следить за чем-либо после следующих строк в этом разделе и всех последующих разделах.
You have now indexed two documents in Solr, and committed these changes. You can now search for "solr" by loading the "Query" tab in the Admin interface, and entering "solr" in the "q" text box. Clicking the "Execute Query" button should display the following URL containing one result...
Слишком смущает слишком мало информации.
Может ли кто-нибудь указать на какой-то базовый учебник по SOLR, который учит настраивать документы SOLR и index .pdf там после.
Из учебника кажется, что Solr Cell (ExtractingRequestHandler) - это путь. Но что это и как использовать его с настройкой, которую я сделал со ссылкой на шаги в учебнике, это то, что я не понимаю или понимаю.
Есть вопросы по переполнению стека, а также по индексированию PDF с помощью SOLR, но они либо слишком специфичны, либо ответы слишком высоки для моего понимания. Мне нужен базовый шаг за шагом для индексации PDF с помощью SOLR.
Спасибо за чтение!
Благодарим за подробный ответ! :) Дайвинг прямо сейчас! :) :) – Nik
Комментарий, если вы застряли где-нибудь :) –