У меня есть три мешка слов:сходства между мешками слов
BoW1 = [word11, word12, word13]
BoW2 = [word21, word22, word23]
BoW3 = [word31, word32, word33]
BoW1 содержит синонимы слово, BoW2 также содержат синонимы слова. Оба BoW1 и BoW фиксированы. BoW3 содержит слова документа, поэтому он является мультимножеством.
Я хочу найти BoW3, чтобы узнать, содержит ли оно какие-либо слова BoW1 и BoW2. Затем я хотел бы рассчитать сходство между Bow1 + BoW2 и BoW3. Итак, вместе BoW1 и BoW2. Я не заинтересован в вычислении подобия между BoW1 и BoW2, при вычислении я могу предположить, что они едины. Однако для моего случая BoW1 содержит значимые слова, чем BoW2.
Как вы думаете, лучший и точный способ расчета такого сходства. Я, тем не менее, использовал термин частота, как в Информационном поиске. Однако я не уверен, что повторение важно в моем случае.
Определение «* сходства» «зависит от вашего прецедента (поэтому существует так много разных мер подобия). Можете ли вы уточнить, что должно выражать сходство между вашими наборами, то есть вы можете дать немного больше информация о сценарии поиска/поиска? – dhke
Ожидается, что выражение «релевантность», я использую BoW1 и BoW2, потому что, если я использую один из них, я ожидаю, что у меня будет много ложноположительных результатов. Поэтому ожидается, что обе сумки вместе уменьшат ложную положительные и, таким образом, возвращать соответствующие документы. И, как я сказал в вопросе, BoW1 содержит более важные слова, чем BoW2. – Arwa