Я индексирую некоторые URI в SOLR с помощью токенизатора UAX29URLEmailTokenizerFactory. Проблема в том, что некоторые из моих URI содержат символы плюс, которые SOLR интерпретирует как пробелы и разделяет URI. Может ли эта проблема быть решена путем какого-то умного выхода из символа «+»? Я попробовал «+» в анализаторе, но получил те же результаты. Вот моя точная конфигурация поля:Индекс плюс символ в SOLR
<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.UAX29URLEmailTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.UAX29URLEmailTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
Благодарим за идею, она отлично поработала, заменив символ «+» экранированием «% 2B», – kpentchev