Если я ищу toto.pdf, для поиска будет создан токен «pdf», который индексирует некоторые данные, включая имена файлов.Lucene ищет имя файла, используя WordDelimiterFilterFactory
То, что я хочу, в соответствии с индексированной файла:
MySupercool123girlfriend.jpg
И чтобы быть в состоянии Какискать это с:
supercool
supercool123
123
girlfriend
jpg
Так по индексу довольно легко, чтобы иметь возможность использовать WordDelimiterFilterFactory так, что некоторые токены создаются, например:
my
supercool
mysupercool
mysupercool123
supercool123
123
girlfriend
jpg
girlfriend.jgp
etc...
Дело в том, что во время поиска я делаю не знаю, что я должен делать.
Если я использую WordDelimiterFilterFactory во время поиска, MySupercool123girlfriend.jpg
будет соответствовать даже с toto.jpg
, потому что в обоих случаях создается токен jpg
. toto.jpg
не должно быть в списке результатов на всех, так что это не решение для меня, чтобы иметь оба результата с соответствующим одним, имеющим лучший забив
У вас какие-либо рекомендации для индексирования и поиска имен файлов?
вы уверены, что 'toto.pdf' соответствует' MySupercool123girlfriend.jpg'? Потому что я уверен, что не вижу или 'toto' или' 'pdf' в MySupercool123girlfriend.jpg'. –
правильно, я имел в виду toto.jpg –