2014-12-20 2 views

ответ

0

Есть несколько способов, как ваши данные выглядят? Это данные взаимодействия, такие как покупки или мнения или рейтинги?

Если это может привести к повреждению элементов или искрам-деталям, то вместо того, чтобы подгружать элементы и идентификаторы пользователя. Если вы кодируете данные как разреженную матрицу, по одной строке для каждого пользователя, вы также можете использовать ряды, сходные друг с другом, или искра-ряды.

Для заданий hadoop идентификаторы должны быть идентификаторами Mahout, номерами ненулевых строк и столбцов для элементов и пользователей. Для заданий Spark вы можете использовать любые идентификаторы, которые вы хотите - они будут считаны как текст и поэтому должны быть уникальной строкой.

Pearson поддерживается только рабочими местами hadoop. Работа Spark использует только коэффициент логарифмической правдоподобия. В совместных фильтрационных приложениях LLR почти всегда лучше других показателей «подобия».

Смежные вопросы