я храню в индексе Lucene ngrams до уровня 3. Когда я читаю индекс и расчет скоринга терминов и ngrams я получившие результаты, как этогоЧастоты Lucene юниграмм и биграммы
TERM FREQUENCY.... TFIDF
minority 25 16.512926
minority report 24 16.179296
report 27 13.559037
cruise 12 11.440491
tom cruise 7 8.737819
Таким образом, если мы смотрим на пример «tom cruise», вместе как bigram это происходит 7 раз. И из этого мы видим, что «круиз» происходит один раз 5 раз. Поэтому я не хочу этого дублирования частоты, потому что только «круиз» оценил лучше, чем «круиз по морю», что неверно, поскольку оно содержится внутри.
Извините, если я объясню плохо, я не знаю, как назвать этот тип забивания, если кто-то знает, чтобы объяснить это техническое слово, пожалуйста, отредактируйте.
Спасибо
Большое спасибо за советы. Я пошел на Kea, но, похоже, предлагаю больше контролируемых доменных терминов, но на странице Kea я читал о Мауи, который делает то же самое с некоторыми дополнительными функциями. http://code.google.com/p/maui-indexer/ Я вижу, что результаты, которые я получаю, очень хороши! Однако я буду копать, теперь попытайтесь увидеть точно детали алгоритма и подсчеты вычислений ..Thanx! – Julia