Частоты Lucene юниграмм и биграммы

я храню в индексе Lucene ngrams до уровня 3. Когда я читаю индекс и расчет скоринга терминов и ngrams я получившие результаты, как этогоЧастоты Lucene юниграмм и биграммы

TERM    FREQUENCY....  TFIDF 
minority   25   16.512926 
minority report 24   16.179296 
report   27   13.559037 
cruise   12   11.440491 
tom cruise  7   8.737819

Таким образом, если мы смотрим на пример «tom cruise», вместе как bigram это происходит 7 раз. И из этого мы видим, что «круиз» происходит один раз 5 раз. Поэтому я не хочу этого дублирования частоты, потому что только «круиз» оценил лучше, чем «круиз по морю», что неверно, поскольку оно содержится внутри.

Извините, если я объясню плохо, я не знаю, как назвать этот тип забивания, если кто-то знает, чтобы объяснить это техническое слово, пожалуйста, отредактируйте.

Спасибо

источник

2010-08-27 Julia

Я полагаю, что я ответил на аналогичный вопрос, который вы просили некоторое время назад. IIUC, вы хотите, чтобы более важные термины выделялись, и вы чувствуете, что «круиз по морю» более важен, чем «круиз».

Это похоже на проблему в вашей модели данных. TFIDF кажется неправильным для того, что вы хотите. Вы можете попробовать создать языковую модель, как описано в Peter Norvig's "Beautiful Data" chapter.

Суть является:

Вычислить вероятность в каждой Юниграмма, биграммы и триграммы (вам нужно будет сглаживанием или развинчивания, как описано в статье).
Выберите ваши условия по вероятности, а не TFIDF.

A Language Model Approach to Keyphrase Extraction похоже, похоже. Некоторые альтернативы: Kea (который использует TFIDF как одну из нескольких функций) и Peter Turney's Keyphrase extraction work.

источник

2010-08-27 20:13:13

Большое спасибо за советы. Я пошел на Kea, но, похоже, предлагаю больше контролируемых доменных терминов, но на странице Kea я читал о Мауи, который делает то же самое с некоторыми дополнительными функциями. http://code.google.com/p/maui-indexer/ Я вижу, что результаты, которые я получаю, очень хороши! Однако я буду копать, теперь попытайтесь увидеть точно детали алгоритма и подсчеты вычислений ..Thanx! – Julia

Частоты Lucene юниграмм и биграммы

ответ

Смежные вопросы