2016-11-02 2 views
0

Я работаю с набором данных объективов для фильма, у меня есть матрица (m X n) идентификатора пользователя как номер строки и фильма как столбцы, и я применил технологию уменьшения размеров и матричную факторизацию, чтобы уменьшить мои разреженная матрица (m X k, где k < n). Я хочу оценить производительность с помощью алгоритма k-ближайшего соседа (не библиотеки, моего собственного кода). Я использую sparkR 1.6.2. Я не знаю, как разбить мой набор данных на данные обучения и проверить данные в sparkR. Я пробовал встроенную функцию R (образец, подмножество, CARET), но он несовместим с рамкой данных искры. любезно дать некоторое предложение для проведения перекрестной проверки и обучения классификатора, используя мою собственную функцию, написанную в sparkRКак выполнить проверку перекрестных ссылок в sparkr

+0

Это довольно расплывчато, не могли бы вы воспроизвести воспроизводимый пример с образцами данных кода, который вы пробовали, и, в идеале, желаемых результатов? – Konrad

ответ

0

Пакет sparklyr (https://spark.rstudio.com/) обеспечивает простую функциональность для разделения данных. Например, если у нас есть фрейм данных df в Spark, мы могли бы создать его копию с compute(), затем разделим его на sdf_partition().

df_part <- df %>% 
    compute("df_part") %>% 
    sdf_partition(test = 0.2, train = 0.8, seed = 2017) 

df_part бы тогда подключение к Спарк DataFrame. Мы могли бы использовать collect() для копирования Spark DataFrame в рамку данных R.

Смежные вопросы