Мы используем Solr для индексации некоторых описаний потребительских товаров, и наш лексический анализ показал, что можно отбросить слова с длиной < 4 (<filter class="solr.LengthFilterFactory" min="4" max="25" />
). Мы смогли обеспечить лучшие результаты запроса.Используйте Solr Length Filter, но держите несколько слов
Однако у нас отсутствуют некоторые значимые слова, такие как GPS, LCD, LED, которые мы хотели бы сохранить.
Есть ли в Solr фильтр, имеющий такую функциональность (отбросить короткие слова, но если он включен в список исключений, сохраните его)? Или мне нужно будет специализировать LongFilter для достижения того, чего я хочу?
Я также думал использовать SynonymFiler для «преобразования» токена (например: LCD => liquid_crystal_display) перед фильмом LengthFilter. Любые мысли об этом решении?
ТИА,
Боб