0

Проблема заключается в том:алгоритм ранжирования с пропущенными значениями и смещения

Набор из 5 независимых пользователей, где предлагалось оценить 50 продуктов, данные им. Все 50 продуктов были бы использованы пользователями в определенный момент времени. Некоторые пользователи более склонны к определенным продуктам. Один пользователь действительно не завершил опрос и дал случайные значения. Пользователям не обязательно оценивать все продукты. Теперь дали 4 образца набора данных, ранжировать продукты, основанные на оценках

datset : 
product #user1 #user2 #user3 #user4 #user5 
0  29 -  10 90  12 
1   - -   - -  7 
2   - -  95 6  1 
3   - -   - -  2 
4   - -   - -  50 
5   - 35  21 13  - 
6   -  -  -  -  5 
7   4  -  - 30  - 
8  11  -  -  - 14 
. 
. 
. 

Как выйти с рейтинга для продукции.

Это реконструированная проблема, очень близкая к исходной проблеме.

Решение: Я попытался очистить данные и заполнить отсутствующие значения с помощью PCA и применить NMF, но я не уверен в решении.

Любая помощь будет глубоко признателен

+0

Вы пробовали простые идеи, чтобы посмотреть, как он себя ведет? Как и среднее для всех пользователей для каждого продукта (снятие отсутствующих значений) или заполнение отсутствующих значений средним рейтингом каждого объекта, а затем выполнение среднего для всех пользователей для каждого продукта (с использованием как реальных, так и виртуальных значений) – ASantosRibeiro

+0

@ASantosRibeiro: Спасибо! Я этого не делал. У меня случайный рейтинг, заданный пользователем. Следовательно, мое предположение состояло в том, что усреднение не даст хороших результатов. – Vinith

+0

случайные результаты - это не более, чем шум в вашей системе. как таковой, если у вас достаточно предметов, которые не должны быть проблемой. если вы знаете, какие субъекты оцениваются случайным образом, исключают их из исследования, так как их вклад только ухудшит ваши результаты. – ASantosRibeiro

ответ

0

В этом случае могут быть использованы два метода вменения:

  • Как все будет пытаться сначала заполнить с наиболее вероятным значением т.е. среднего среднего.
  • Предсказать на основе других атрибутов, которые называются вменением регрессии.

На самом деле, я думаю, что второй метод кажется более подходящим для этого набора данных, где пользователи в основном оценивают более одного продукта.

Кроме того, если у вас есть другие наборы данных в зависимости от пользователей, вы можете использовать его также для прогнозирования недостающих значений в этом наборе данных.

1

Если вы не заботитесь о абсолютных показателях и в основном заинтересованы в последовательной относительного рейтинга, вы можете просмотреть вашу проблему как экземпляр задачи агрегации ранга: дан список (частичные или полного), получают рейтинг консенсуса, который сводит к минимуму общее несогласие с входными рейтингами. Существует несколько возможных способов формализации разногласий и постулирования разумных условий, которые должны иметь место. Одним из примеров такого условия является критерий Condorcet: Если предмет побеждает любой другой элемент при простуском большинстве голосов, он должен быть первым.

This excellent paper содержит хорошую мотивацию и обзор литературы подходов, основанных на консенсусе. Оптимальная агрегация Kemeny минимизирует расстояние Кендалл-Тау, т. Е. Общее количество парных разногласий между списками. Хотя эта оптимальная агрегация NP-жесткая, авторы предлагают разумные эвристические подходы.