2013-07-12 6 views
0

Я ищу для индексирования документы Rich типов (Pdf, Doc, rtf, txt) в Solr. Я нашел Тику в качестве решения. Я сделал разглагольствование в Интернете, но не нашел никаких документов/ссылок, чтобы заставить его работать с ExtractingRequestHandler.Конфигурирование Tika With Solr

Любой может предоставить пошаговый способ настройки Tika с помощью ExtractingRequestHandler.

Заранее спасибо :)

+2

В вашем поиске ресурсов вы попробовали документацию [ExtractingRequestHandler] (http://wiki.apache.org/solr/ExtractingRequestHandler)? – femtoRgon

+0

В настоящее время я использую Solr-Php-Client Library для индексации содержимого. Теперь, чтобы индексировать документы, я нашел tika в качестве решения. но не можете найти, как настроить его с помощью solr? не могли бы вы объяснить это вкратце. или любые полезные ссылки/документы? – user2475624

+1

Чтобы процитировать приведенную выше документацию: «Solr's ExtractingRequestHandler использует Tika, чтобы позволить пользователям загружать в Solr двоичные файлы и извлекать из него текст Solr, а затем индексировать его». Это не особый случай, это просто «ExtractingRequestHandler». Документация должна помочь вам приступить к работе. Если вы столкнулись с проблемами, когда вы идете, не стесняйтесь задавать новый вопрос, чтобы помочь в его решении, но сначала попробуйте попробовать. – femtoRgon

ответ

2

ExtractingRequestHandler Проверить для интеграции Solr с Тика.
Solr предоставляет встроенный tika.config, и вам не нужно будет определять его, если не переопределить конфигурацию.
Вы можете пойти с настройками по умолчанию, как определено в solrconfig.xml

<!-- Solr Cell Update Request Handler 

    http://wiki.apache.org/solr/ExtractingRequestHandler 

--> 
<requestHandler name="/update/extract" 
       startup="lazy" 
       class="solr.extraction.ExtractingRequestHandler" > 
<lst name="defaults"> 
    <str name="lowernames">true</str> 
    <str name="uprefix">ignored_</str> 

    <!-- capture link hrefs but ignore div attributes --> 
    <str name="captureAttr">true</str> 
    <str name="fmap.a">links</str> 
    <str name="fmap.div">ignored_</str> 
</lst> 
</requestHandler> 

Вы можете использовать команды для индексирования файлов Solr с дополнительными метаданными.

curl "http://localhost:8983/solr/update/extract?literal.id=2&literal.title=Test&commit=true&fmap.content=text" -F "[email protected]" 

По умолчанию содержимое файлов копируется в поле контента и копируется в текст, вы можете изменить настройки.

+0

@jayedra Один вопрос! При индексировании, отличном от типов PDF, он генерирует Java.lang.noClassDefFoundError. Любой ключ? – user2475624

+0

Для какого класса? – Jayendra

+0

Thanks Jayendra Это была проблема с URL-адресом, так что причал оставил исключение в любом случае. Но пока я не могу видеть свои документы с solr Query *. * Что может быть неправильным? – user2475624

Смежные вопросы