Отображение сходства корреляции pearson между двумя пользователями в Apache Mahout

Кто-нибудь знает, как получить числовое значение сходства между любыми двумя пользователями данного набора данных в Apache Mahout?Отображение сходства корреляции pearson между двумя пользователями в Apache Mahout

источник

2014-12-20 SIDDHARTH MEHTA

Есть несколько способов, как ваши данные выглядят? Это данные взаимодействия, такие как покупки или мнения или рейтинги?

Если это может привести к повреждению элементов или искрам-деталям, то вместо того, чтобы подгружать элементы и идентификаторы пользователя. Если вы кодируете данные как разреженную матрицу, по одной строке для каждого пользователя, вы также можете использовать ряды, сходные друг с другом, или искра-ряды.

Для заданий hadoop идентификаторы должны быть идентификаторами Mahout, номерами ненулевых строк и столбцов для элементов и пользователей. Для заданий Spark вы можете использовать любые идентификаторы, которые вы хотите - они будут считаны как текст и поэтому должны быть уникальной строкой.

Pearson поддерживается только рабочими местами hadoop. Работа Spark использует только коэффициент логарифмической правдоподобия. В совместных фильтрационных приложениях LLR почти всегда лучше других показателей «подобия».

источник

2014-12-20 17:25:01 pferrel

Отображение сходства корреляции pearson между двумя пользователями в Apache Mahout

ответ

Смежные вопросы