2010-10-07 2 views

ответ

0

vanilla tf-idf - это то, что часто используется. Если вы хотите узнать об этих вещах, самое лучшее место для начала - this book.

1

BM25 является одним из алгоритмов ранжирования на основе терминов. В настоящее время существуют также основанные на концепции алгоритмы.

BM25, если состояние новейшего поиска на основе термина; однако есть некоторые проблемы, которые невозможно преодолеть на основе термина, например, связанные синонимы, сопоставление аббревиатуры или распознавание омонимов. Вот примеры:

синоним: «купить» и «покупка»

антонимом: «Профессор» и «Профессор»

homonym:

  • лука - длинная деревянная палка с конским волосом, который используется для воспроизведения некоторых струнных инструментов, таких как скрипка
  • лука - согнуть вперед на талии в отношении (например, «лук вниз ")

Чтобы справиться с этими проблемами, некоторые используют концептуальные модели на основе таких как this article и this article.

Концептуальные модели в основном используют словари или внешние термины для определения понятий, и каждый из них имеет собственное представление концепций или алгоритмов взвешивания.

Смежные вопросы