2014-01-30 5 views
0

Этот Documentations раздел состояния, Apache Тика можно настроить с помощью выделенного файла конфигурации: https://cwiki.apache.org/confluence/display/solr/Uploading+Data+with+Solr+Cell+using+Apache+TikaНастройка Apache Тика

<str name="tika.config">/my/path/to/tika.config</str> 

Очевидный вопрос - где я могу найти образец tika.config и инструкции о том, как изменить его?

Какая у вас цель? Я хочу настроить Тик НЕ для анализа медиа-контента FILES

+0

Существует множество конфигураций Tika, используемых в un он тестирует код конфигурации Tika, который отправляется в исходное дерево - сделайте [любую из этих подсказок] (https://svn.apache.org/repos/asf/tika/trunk/tika-core/src/test/resources/org/Apache/ТИК/конфигурация /)? – Gagravarr

+0

ну, это лучше, чем ничего, но ... не подскажете, какие варианты поддерживаются и как достичь разных целей, используя конфигурационный файл –

+0

Я имею в виду, что это странно - приложение поддерживает настройку, но буквально никаких признаков одного в Интернете –

ответ

0

Вы должны добавить эти строки в файле solrconfig.xml

<lib dir="../../../../contrib/extraction/lib/" regex="tika-core-\d.*\.jar" /> 
    <lib dir="../../../../contrib/extraction/lib/" regex="tika-parsers-\d.*\.jar" /> 

Добавить эти строки тоже

**<requestHandler name="/update/extract" 
        startup="lazy" 
        class="solr.extraction.ExtractingRequestHandler" > 
    <lst name="defaults"> 
     <str name="lowernames">true</str> 
     <str name="fmap.meta">ignored_</str> 
     <str name="fmap.content">_text_</str> 
     <str name="capture">body</str> 
    </lst> 
     <str name="tika.config">**html-config.xml**</str> 
    </requestHandler>** 

HTML, файл -config.xml должен находиться в каталоге conf и содержать содержимое, см. здесь https://github.com/apache/tika/blob/master/tika-parsers/src/test/resources/org/apache/tika/parser/html/tika-config.xml

+0

извините за плохое письмо, ** не включен! – sajju

Смежные вопросы