2014-10-30 5 views
0

Привет, у меня проблема с дизайном схемы в Solr. У меня есть расшифровка телефонного разговора в этом формате. Я разбираю его в отдельных полях. У меня есть эта схема:Дизайн оптимальной схемы Solr

<?xml version="1.0"?> 

<add> 
<doc> 
<field name="id">01.cn</field> 
<field name="t">0<br /> 1<br /> 2<br /> 2 <br /> 3 <br /> ....</field> 
<field name="st">0.00<br /> 1.54<br /> 1.54<br /> 1.54 <br /> 1.57 <br /> ....</field> 
<field name="et">1.54<br /> 1.54<br /> 1.57<br /> 1.57 <br /> 1.7 <br /> ....</field> 
<field name="w">_SILENCE_<br /> <s><br /> HELLO<br /> HALLO <br /> _DELETE_ <br /> ....</field> 
<field name="p">0.000000<br /> 1<br /> 1<br /> 2.06115e-009 <br /> 1 <br /> ....</field> 
<field name="c">0<br /> 0<br /> 0<br /> 0 <br /> 0 <br /> ....</field> 
</doc> 
</add> 

Я отображаемый его в HTML-документе, и поэтому я использовал <br />.

Это оригинальный документ:

T=0 ST=0.00 ET=1.54 W=_SILENCE_ P=0.000000 C=0 
T=1 ST=1.54 ET=1.54 W=<s> P=1 C=0 
T=2 ST=1.54 ET=1.57 W=HELLO P=1 C=0 
T=2 ST=1.54 ET=1.57 W=HALLO P=2.06115e-009 C=0 
T=3 ST=1.57 ET=1.70 W=_DELETE_ P=1 C=0 
T=3 ST=1.57 ET=1.70 W=NO P=2.06115e-009 C=0 
T=4 ST=1.70 ET=2.12 W=HOW P=1 C=0 
T=5 ST=2.12 ET=2.18 W=ARE_ P=0.25 C=0 
T=5 ST=2.12 ET=2.18 W=_DELETE_ P=0.25 C=0 
.......................................... 
.......................................... 

Id - filename 
T = Segment 
ST = Start time 
ET = End time 
W = Word 
P = Probability 
C = Chanel 

Я хочу найти, например, слово, которое времени 1,57 (w:HeLLO) AND (t:[0 TO 1.57]). Но если у меня есть все данные в одном поле (t, st, et ...), то это не сработает. Он находит все файлы, где hello еще раз, чем 1.57.

У вас есть идеи, как это сделать? Большое спасибо за вашу помощь.

ответ

0

Имейте отдельное ядро ​​с одним документом для каждой комбинации (слово, время) и запросите это ядро.

Смежные вопросы