2013-12-13 4 views
0

Solr/Carrot2 ИнтеграцияSolr/Carrot2 Интеграция

У меня есть несколько текстовых файлов для каждого я создал XML для индексирования документа на Solr, как показано ниже

<add> 
    <doc> 
    <person>data </person> 
    <organization>data here </organization> 
    <content>Some spanish text here</content > 
    </doc> 
<add> 

Схема, используемая в Indexing

<field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" />  
<field name="person" type="string" indexed="true" stored="true" required="true" multiValued="true" /> 
<field name="orgnization" type="string" indexed="true" stored="true" required="true" multiValued="true" /> 
<field name="content" type="text_es" indexed="true" stored="true" multiValued="true"/> 
<field name="location" type="string" indexed="true" stored="true" required="true" multiValued="true" /> 

Теперь я пытаюсь интегрировать кластеров из моркови2, потому что я следил за ними s ссылка http://carrot2.github.io/solr-integration-strategies/carrot2-3.8.0/index.html

Моя проблема в результате кластерного запроса я получаю только один кластер, как пыльник

<arr name="clusters"> 
    <lst> 
<arr name="labels"> 
    <str>Other Topics</str> 
    </arr> 
    <double name="score">0.0</double> 
    <bool name="other-topics">true</bool> 
    <arr name="docs"> 
     <str>#.txt</str> 
     <str>abci-britanicos-pizzerias-201312120250.txt</str> 
     <str>abci-arqueologos-israelis-descubren-primer-201312111303.txt</str> 
     <str>abci-autoridad-fiscal-pensiones-201312111956.txt</str> 
     <str>abci-buenas-razones-para-cambiar-201312110933.txt</str> 
     <str>abci-audio-asamblea-aserpinto-201312112139.txt</str> 
     < 
    </arr> 
    </lst> 
    </arr> 

я должен получить больше кластера Мой корпус содержит 60 текстовых документов

ответ

1

Для того, чтобы кластеризация результатов поиска для работы в Solr, поля заголовка и содержимого, которые вы передаете для кластеризации, должны быть сохранены. Заявление в Solr схеме может выглядеть следующим образом:

<field name="content" type="text" indexed="true" stored="true" /> 
+0

В кластерной рабочей среде кластеризация работает, поэтому я думаю, что моя схема solr не имеет проблем Я думаю, что конфигурация solr для кластеризации может иметь проблемы – GaneshP

+0

При использовании Workbench вам все равно нужно иметь свой контент в сохраненных полях. Причина этого в том, что алгоритму кластеризации нужен исходный текст, чтобы он мог анализировать последовательности слов. Такая информация недоступна, если ваши поля индексируются, но не сохраняются. –

+0

мое поле содержимого индексируется и хранится схема проверки, указанная в вопросе – GaneshP

1

В дополнении к тому, что говорит о Станиславе поля хранится, пожалуйста, предоставьте запрос, который используется для кластеризации и, в идеале, полная схема, используемая для индексирования данных.

Если у вас всего лишь 60 документов в вашем индексе, а запрос соответствует небольшому подмножеству документов, то кластера не будет.