Настройка приложения SOLR для индексирования pdf-документов

Я совершенно новичок в Apache SOLR/Lucene, но хочу использовать его для индексирования документов PDF.Настройка приложения SOLR для индексирования pdf-документов

Я начал учиться, следуя официальной учебник:

[Apache SOLR 4.6.0 Tutorial][1]

Я могу достичь точки в учебнике с заголовком «Индексация данных», где они индексных два XML-файлов.

Тем не менее, я не могу следить за чем-либо после следующих строк в этом разделе и всех последующих разделах.

You have now indexed two documents in Solr, and committed these changes. You can now search for "solr" by loading the "Query" tab in the Admin interface, and entering "solr" in the "q" text box. Clicking the "Execute Query" button should display the following URL containing one result...

Слишком смущает слишком мало информации.

Может ли кто-нибудь указать на какой-то базовый учебник по SOLR, который учит настраивать документы SOLR и index .pdf там после.

Из учебника кажется, что Solr Cell (ExtractingRequestHandler) - это путь. Но что это и как использовать его с настройкой, которую я сделал со ссылкой на шаги в учебнике, это то, что я не понимаю или понимаю.

Есть вопросы по переполнению стека, а также по индексированию PDF с помощью SOLR, но они либо слишком специфичны, либо ответы слишком высоки для моего понимания. Мне нужен базовый шаг за шагом для индексации PDF с помощью SOLR.

Спасибо за чтение!

источник

2013-11-28 Nik

Для начала вы должны посмотреть, как работает Solr.

НЕ БУКВАЛЬНО но что-то близкое:

->: можно перевести как

Ядро в Solr -> таблицу в SQL

документ в Solr -> запись в таблице

Документ может иметь любое количество полей (например, столбцы в таблице). (ID, NAME, EMAIL и т. Д.)

Поле имеет тип (как переменная (относится к классам Lucene) (String, UUID и т. Д.)) Поле может быть проиндексировано (доступно для поиска) и сохраняются (извлекаются как есть).

Теперь вам нужно решить, какую реализацию вы хотите. Реализация одного ядра (таблицы) является самой простой, но почти для всех случаев использования для Solr вы хотите использовать многоядерную настройку.

В 4.6.0 каталоге Solr вы скачали, перейдите к примеру и запустить start.jar с помощью следующей команды: java -Dsolr.solr.home=multicore -jar star.jar

Открывает http://localhost:8983/solr побродить, вы узнаете много наблюдений.

Далее следует обратиться к каталогу multicore.

Вы увидите файл solr.xml. Открой это. Внизу у вас будет определение ядер.Добавить строку с YOUR_CORE_NAME

После этого сохраните файл, запустите solr. Вы увидите ряд ошибок относительно: не найдено solrconfig.xml, schema.xml для YOUR_CORE_NAME.

Эти файлы очень важны, потому что:

solrconfig.xml: содержит как ваше ядро (таблица) будет вести себя в то время как Solr работает. Чрезвычайно настраиваемый, чрезвычайно полезный, но слишком большой для кого-то, кто запускает Solr (вы учитесь на лету). пока я попробую скопировать solrconfig.xml из одного из других ядер.

schema.xml: Это похоже на определение вашей таблицы. Здесь вы определяете свои «поля» (столбцы). Посмотрите на схему для других ядер и читать

http://wiki.apache.org/solr/SchemaXml

сделать простую схему, 3 поля. Внимательно обращайте внимание на анализаторы, которые теперь используют стандартный анализатор Lucene. Это очень хорошо и работает для большинства случаев использования.

Теперь структура каталогов: Внутри multicore сделайте папку с именем YOUR_CORE_NAME.

Под YOUR_CORE_NAME: сделайте папку conf и разместите solrconfig.xml и schema.xml внутри этой папки.

Начало solr. Теперь он должен загружаться без ошибок.

Как только вы это сделаете, продолжайте настраивать schema.xml, пока не придумаете то, что ищете.

источник

2013-11-29 00:06:52

Благодарим за подробный ответ! :) Дайвинг прямо сейчас! :) :) – Nik

Комментарий, если вы застряли где-нибудь :) –

Настройка приложения SOLR для индексирования pdf-документов

ответ

Смежные вопросы