Это у меня в Solr схемы файлразница Solr между '<' и <
<tokenizer class="solr.PatternTokenizerFactory" pattern="[\s\?\!\:\;\,\(\)\\\*\'#\$%\-\/\=\@\[\]\^\_\{\}\|\~"<>]"/>
Solr хорошо играть с отключающей такой текст
Hello<World<!
Но терпит неудачу с этим
Hello<World>!
Нет результатов с запросом World
, но много с <World>
Как я могу переписать шаблон для разрыва на символе <
?
Стараюсь CDATA, но он не работает
<tokenizer class="solr.PatternTokenizerFactory" pattern="[\s\?\!\:\;\,\(\)\\\*\'#\$%\-\/\=\@\[\]\^\_\{\}\|\~]|("|<|>|[CDATA[<]])"/>
и немного измененный шаблон
<tokenizer class="solr.PatternTokenizerFactory" pattern="[\s\?\!\:\;\,\(\)\\\*\'#\$%\-\/\=\@\[\]\^\_\{\}\|\~]|("|<|>)"/>
же не работает для меня
UPDATE
Решение
pattern="[\s\?\!\:\;\,\(\)\\\*\.#\$%\-\/\=\@\[\]\^\_\{\}\|\~"<>«»]|(&lt;)|(&gt;)"
Также работает без изменить свой первый поворот рисунка на HTML фильтра в схеме, которая превращающего <
к <
и Solr разбирает <
<charFilter class="solr.HTMLStripCharFilterFactory"/>
анализ экрана ужасный – theodor