У меня есть случай, в котором я хотел бы, чтобы соответствовать следующим образом:Solr Минимальное соответствие настройки
запрос: ABCD EFGH IJKL MNOP
После этого запроса подвергают Ngram токенизатор и каждое слово делится на 2-граммовые жетоны.
например) Запрос разделяется на,
AB, BC, CD, эф, фг, GH, IJ, Ю.К., Ы, тп, нет, оп
Теперь, подбирая я хочу минимальное соответствие, которое должно быть настроено для токенов в словах.
Я имею в виду, по умолчанию, когда какой-либо один токен, соответствующий слову, совпадает с индексированным документом, с mm = 1, этот индексный документ возвращается. И если я даю mm = 2, то любой токен из любых двух слов должен соответствовать индексированному документу, который будет возвращен.
Но я хочу: Вернуть документ только тогда, когда каждый знак «m» соответствует каждому значению mm = num of words.
Например) Я бы хотел, по крайней мере, 2 токена каждый из по крайней мере 3 слов для выбранного индекса.
Кажется, IndexSearcher от Lucene делает эту основную часть. Нужно ли мне менять код или любую другую конфигурацию, которая бы делала эти вещи?
Заранее спасибо ...
Ничего себе милый. Раньше я слышал о расстоянии Левенштейна. Спасибо за ваше ценное предложение. Я буду смотреть в него. – sriram