Проблема заключается в том:алгоритм ранжирования с пропущенными значениями и смещения
Набор из 5 независимых пользователей, где предлагалось оценить 50 продуктов, данные им. Все 50 продуктов были бы использованы пользователями в определенный момент времени. Некоторые пользователи более склонны к определенным продуктам. Один пользователь действительно не завершил опрос и дал случайные значения. Пользователям не обязательно оценивать все продукты. Теперь дали 4 образца набора данных, ранжировать продукты, основанные на оценках
datset :
product #user1 #user2 #user3 #user4 #user5
0 29 - 10 90 12
1 - - - - 7
2 - - 95 6 1
3 - - - - 2
4 - - - - 50
5 - 35 21 13 -
6 - - - - 5
7 4 - - 30 -
8 11 - - - 14
.
.
.
Как выйти с рейтинга для продукции.
Это реконструированная проблема, очень близкая к исходной проблеме.
Решение: Я попытался очистить данные и заполнить отсутствующие значения с помощью PCA и применить NMF, но я не уверен в решении.
Любая помощь будет глубоко признателен
Вы пробовали простые идеи, чтобы посмотреть, как он себя ведет? Как и среднее для всех пользователей для каждого продукта (снятие отсутствующих значений) или заполнение отсутствующих значений средним рейтингом каждого объекта, а затем выполнение среднего для всех пользователей для каждого продукта (с использованием как реальных, так и виртуальных значений) – ASantosRibeiro
@ASantosRibeiro: Спасибо! Я этого не делал. У меня случайный рейтинг, заданный пользователем. Следовательно, мое предположение состояло в том, что усреднение не даст хороших результатов. – Vinith
случайные результаты - это не более, чем шум в вашей системе. как таковой, если у вас достаточно предметов, которые не должны быть проблемой. если вы знаете, какие субъекты оцениваются случайным образом, исключают их из исследования, так как их вклад только ухудшит ваши результаты. – ASantosRibeiro