2014-11-17 3 views
0

У меня возникла дилемма с SOLR Tika и индексация документа. Поскольку это был мой первый контакт с SOLR и Tika, я все еще участвую в фазе обучения. Пока я получил его на работу, а также он возвращает правильное выделение результатов. Он работает так, как ожидалось.Выполнение запроса для индексированных документов SOLR - с помощью выделения

Что-то для меня не имеет смысла. Каждый раз, когда я возвращал результаты, я получаю поля, которые я использую (id, имя и некоторые другие), также получаю подсветки, которые ведут себя правильно, но я также получаю содержимое, которое мне действительно не нужно. Скажем, я загружаю и индексирую файл с 600 Кб текста. Я также получаю контент, содержащий текст, и это замедляет работу. Я использую по умолчанию Schema.xls, содержащиеся в папке примера для обучения.

Как я изо всех сил, чтобы сделать эту работу, я сделал эти изменения в Schema.xml (добавлены этот XML)

<copyField source="features" dest="text"/> 
<fieldType name="features" class="solr.TextField" positionIncrementGap="100"> 
    <analyzer> 
    <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
    <filter class="solr.ManagedStopFilterFactory" managed="english" /> 
    <filter class="solr.ManagedSynonymFilterFactory" managed="english" /> 
    </analyzer> 
</fieldType> 

И что функции.

Я POST документ ГУМЗ аналогичным образом, как показано на сайте ТИКА:

curl "http://localhost:8983/solr/update/extract?literal.id=doc1&commit=true" -F 
"[email protected]" 

Мой путь динамичны, как определить, literal.id на основе имени документа. Но на самом деле это тот же пост.

ПОЛУЧИТЬ документ из ГУМЗА, как это:

aws.instance:8983/solr/select?q=features:virus&hl.fragsize=50&hl=on&hl.fl=features&hl.maxAnalyzedChars=-1&hl.snippets=20&wt=json&indent=true 

, который возвращает объект JSON, включая основные моменты. Проблема в том, что я тоже получаю контент, и мне это не нужно.

Я готов написать свой собственный файл схемы и решить эту проблему с неправильными полями, которые я использовал (функции).

Я сделал эту работу, но я знаю, что я сделал это неправильный путь, то, я не могу видеть неправильный путь

Я знаю, что должен быть другой запрос, чтобы получить основные моменты, а также я знаю, что возможности не должно быть поле содержимого достаточно.

ответ

1

Вы можете выбрать, какие поля возвращаются, отправляя the fl parameter: &fl=id,name,etc.

+0

Да. Как только я удалил ненужные улучшения параметров, было 100%. Спасибо. –

Смежные вопросы