У меня возникла дилемма с SOLR Tika и индексация документа. Поскольку это был мой первый контакт с SOLR и Tika, я все еще участвую в фазе обучения. Пока я получил его на работу, а также он возвращает правильное выделение результатов. Он работает так, как ожидалось.Выполнение запроса для индексированных документов SOLR - с помощью выделения
Что-то для меня не имеет смысла. Каждый раз, когда я возвращал результаты, я получаю поля, которые я использую (id, имя и некоторые другие), также получаю подсветки, которые ведут себя правильно, но я также получаю содержимое, которое мне действительно не нужно. Скажем, я загружаю и индексирую файл с 600 Кб текста. Я также получаю контент, содержащий текст, и это замедляет работу. Я использую по умолчанию Schema.xls, содержащиеся в папке примера для обучения.
Как я изо всех сил, чтобы сделать эту работу, я сделал эти изменения в Schema.xml (добавлены этот XML)
<copyField source="features" dest="text"/>
<fieldType name="features" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.ManagedStopFilterFactory" managed="english" />
<filter class="solr.ManagedSynonymFilterFactory" managed="english" />
</analyzer>
</fieldType>
И что функции.
Я POST документ ГУМЗ аналогичным образом, как показано на сайте ТИКА:
curl "http://localhost:8983/solr/update/extract?literal.id=doc1&commit=true" -F
"[email protected]"
Мой путь динамичны, как определить, literal.id на основе имени документа. Но на самом деле это тот же пост.
ПОЛУЧИТЬ документ из ГУМЗА, как это:
aws.instance:8983/solr/select?q=features:virus&hl.fragsize=50&hl=on&hl.fl=features&hl.maxAnalyzedChars=-1&hl.snippets=20&wt=json&indent=true
, который возвращает объект JSON, включая основные моменты. Проблема в том, что я тоже получаю контент, и мне это не нужно.
Я готов написать свой собственный файл схемы и решить эту проблему с неправильными полями, которые я использовал (функции).
Я сделал эту работу, но я знаю, что я сделал это неправильный путь, то, я не могу видеть неправильный путь
Я знаю, что должен быть другой запрос, чтобы получить основные моменты, а также я знаю, что возможности не должно быть поле содержимого достаточно.
Да. Как только я удалил ненужные улучшения параметров, было 100%. Спасибо. –