Я работаю над товарным CF, который использует скорректированное сходство косинусов. Недавно я добавил регулярное сходство с косинусом, и у меня были совершенно разные результаты. Теперь мой вопрос, который лучше подходит для моих данных?Выбор между скорректированным положением косинуса по сравнению с обычным косинусным подобием
Это возможный сценарий пользователей, элементы и рейтинги
User 1 | User 2 | User 3 | User 4 | User 5
Item 1 | 5 | 1 | 1 | 5 | 5
Item 2 | 5 | 1 | 2 | 4 | 5
Item 3 | 1 | 5 | 4 | 2 | 3
Учитывая эти данные, вы бы к выводу, что пункт 1 и пункт 2 являются относительно «похожи». Вот результаты различных коэффициентов подобия:
Сходство между пунктом 1 и пунктом 2
Adjusted cosine similarity = 0.865
Regular cosine similarity = 0.987
я округлил их для этого примера
Вы можете увидеть это в основном то же самое , но когда вы пытаетесь вычислить сходство между пунктами 2 и 3 (которые вообще не похожи), это приводит к совершенно другим результатам:
Сходство между пунктом 2 a й Пункт 3
Adjusted cosine similarity = -0.955
Regular cosine similarity = 0.656
я округлил их для этого примера
Какой из них будет 'лучше'? Я предполагаю, что использование скорректированного косинусного сходства улучшается, так как оно учитывает средний рейтинг пользователя, но почему правильное сходство с косинусом приводит к положительному числу для таких «разных» предметов? Должен ли я просто воздерживаться от использования обычного сходства косинусов вообще или только для определенных сценариев?
Любая помощь будет оценена!