ExtractingRequestHandler Проверить для интеграции Solr с Тика.
Solr предоставляет встроенный tika.config, и вам не нужно будет определять его, если не переопределить конфигурацию.
Вы можете пойти с настройками по умолчанию, как определено в solrconfig.xml
<!-- Solr Cell Update Request Handler
http://wiki.apache.org/solr/ExtractingRequestHandler
-->
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="lowernames">true</str>
<str name="uprefix">ignored_</str>
<!-- capture link hrefs but ignore div attributes -->
<str name="captureAttr">true</str>
<str name="fmap.a">links</str>
<str name="fmap.div">ignored_</str>
</lst>
</requestHandler>
Вы можете использовать команды для индексирования файлов Solr с дополнительными метаданными.
curl "http://localhost:8983/solr/update/extract?literal.id=2&literal.title=Test&commit=true&fmap.content=text" -F "[email protected]"
По умолчанию содержимое файлов копируется в поле контента и копируется в текст, вы можете изменить настройки.
В вашем поиске ресурсов вы попробовали документацию [ExtractingRequestHandler] (http://wiki.apache.org/solr/ExtractingRequestHandler)? – femtoRgon
В настоящее время я использую Solr-Php-Client Library для индексации содержимого. Теперь, чтобы индексировать документы, я нашел tika в качестве решения. но не можете найти, как настроить его с помощью solr? не могли бы вы объяснить это вкратце. или любые полезные ссылки/документы? – user2475624
Чтобы процитировать приведенную выше документацию: «Solr's ExtractingRequestHandler использует Tika, чтобы позволить пользователям загружать в Solr двоичные файлы и извлекать из него текст Solr, а затем индексировать его». Это не особый случай, это просто «ExtractingRequestHandler». Документация должна помочь вам приступить к работе. Если вы столкнулись с проблемами, когда вы идете, не стесняйтесь задавать новый вопрос, чтобы помочь в его решении, но сначала попробуйте попробовать. – femtoRgon