2013-08-16 9 views
0

Я столкнулся со своеобразной проблемой. Я настроил мои конфигурации данных и схемы в соответствии с Solr вики здесь: Tika DIHSolr tika не сохраняет данные

конфигурация данных подобны:

<dataConfig> 
<dataSource type="BinURLDataSource" name="bin" /> 
    <document> 
     <entity name="tika-test" processor="TikaEntityProcessor" 
       url = "http://adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/pdf_open_parameters.pdf" dataSource= "bin" format="text" > 
       <field column="Author" name="author" meta="true"/> 

       <field column="title" meta="true" name="title"/> 
       <field column="text" name="text"/> 
     </entity> 
    </document> 
</dataConfig> 

Схема таково:

<fields> 
    <field name="title" type="string" indexed="true" stored="true"/> 

    <field name="author" type="string" indexed="true" stored="true" /> 


    <field name="text" type="text" indexed="true" stored="true" /> 


</fields> 
<uniqueKey>text</uniqueKey> 

У меня есть исполняемая банка ТИКА также, вышеупомянутый документ обрабатывается только в префектуре, когда я использую версию jar из командной строки. Однако с помощью solr импорт данных импортирует пустой набор полей. Это удается, но созданный документ полностью пуст для всех полей. Где я иду не так?

Я также попытался использовать ExtractingRequestHandler. Это как мой обработчик запроса установки:

<requestHandler name="/update/extract" class="org.apache.solr.handler.extraction.ExtractingRequestHandler"> 
    <lst name="defaults"> 
     <str name="fmap.Last-Modified">last_modified</str> 
     <str name="uprefix">ignored_</str> 
    </lst> 
    </requestHandler> 

Попытка следующий запрос:

curl "http://localhost:3533/solr/solr/update/extract?literal.id=doc1&commit=true" -F "myfile=/home/superq/Downloads/tutorial.html" 

я получаю пустой ответ, как:

<response><lst name="responseHeader"><int name="status">0</int><int name="QTime">13</int></lst></response> 

Даже файлы журнала не имеют все, что может помочь. И документ еще не проиндексирован. Более того, кажется, что ничто не обрабатывается как изменение имени целевого файла на файл, который не существует. НЕ ПРОПУСКАЕТ ошибку.

Мой вопрос:

1) Для интеграции Solr Тика Мне просто нужно скопировать соответствующие файлы (ТИКА строить артефакты) в путь к библиотеке Solr или мне нужно сделать, чтобы установить его как сервис, а?

2) Для преобразования файлов мне нужно создать двоичную версию файла .doc/.pdf, а затем подать его в solr? Я видел некоторую литературу по этому поводу, которая была довольно запутанной. Разве тика не должна заботиться об этом?

ответ

1

Моя статья о Настройка Тика & Извлечение Request Handler может быть полезна для вас:

http://amac4.blogspot.co.uk/2013/07/setting-up-tika-extracting-request.html

+0

Проверка его. Также существует способ индексирования нескольких документов в папке с использованием спецификации url в data-config. Это на том же хосте: http://host.com/folder-with-documents. Один из способов - указать абсолютный путь на сервере. Можно ли сделать то же самое, используя url? –

Смежные вопросы