Я столкнулся со своеобразной проблемой. Я настроил мои конфигурации данных и схемы в соответствии с Solr вики здесь: Tika DIHSolr tika не сохраняет данные
конфигурация данных подобны:
<dataConfig>
<dataSource type="BinURLDataSource" name="bin" />
<document>
<entity name="tika-test" processor="TikaEntityProcessor"
url = "http://adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/pdf_open_parameters.pdf" dataSource= "bin" format="text" >
<field column="Author" name="author" meta="true"/>
<field column="title" meta="true" name="title"/>
<field column="text" name="text"/>
</entity>
</document>
</dataConfig>
Схема таково:
<fields>
<field name="title" type="string" indexed="true" stored="true"/>
<field name="author" type="string" indexed="true" stored="true" />
<field name="text" type="text" indexed="true" stored="true" />
</fields>
<uniqueKey>text</uniqueKey>
У меня есть исполняемая банка ТИКА также, вышеупомянутый документ обрабатывается только в префектуре, когда я использую версию jar из командной строки. Однако с помощью solr импорт данных импортирует пустой набор полей. Это удается, но созданный документ полностью пуст для всех полей. Где я иду не так?
Я также попытался использовать ExtractingRequestHandler. Это как мой обработчик запроса установки:
<requestHandler name="/update/extract" class="org.apache.solr.handler.extraction.ExtractingRequestHandler">
<lst name="defaults">
<str name="fmap.Last-Modified">last_modified</str>
<str name="uprefix">ignored_</str>
</lst>
</requestHandler>
Попытка следующий запрос:
curl "http://localhost:3533/solr/solr/update/extract?literal.id=doc1&commit=true" -F "myfile=/home/superq/Downloads/tutorial.html"
я получаю пустой ответ, как:
<response><lst name="responseHeader"><int name="status">0</int><int name="QTime">13</int></lst></response>
Даже файлы журнала не имеют все, что может помочь. И документ еще не проиндексирован. Более того, кажется, что ничто не обрабатывается как изменение имени целевого файла на файл, который не существует. НЕ ПРОПУСКАЕТ ошибку.
Мой вопрос:
1) Для интеграции Solr Тика Мне просто нужно скопировать соответствующие файлы (ТИКА строить артефакты) в путь к библиотеке Solr или мне нужно сделать, чтобы установить его как сервис, а?
2) Для преобразования файлов мне нужно создать двоичную версию файла .doc/.pdf, а затем подать его в solr? Я видел некоторую литературу по этому поводу, которая была довольно запутанной. Разве тика не должна заботиться об этом?
Проверка его. Также существует способ индексирования нескольких документов в папке с использованием спецификации url в data-config. Это на том же хосте: http://host.com/folder-with-documents. Один из способов - указать абсолютный путь на сервере. Можно ли сделать то же самое, используя url? –