2015-03-12 7 views
2

Я хочу использовать R для статистической аналитики для больших данных. Для этого я хочу использовать Spark как большой сервер данных. И использование SparkR в качестве средства связывания. Мое требование - использовать функцию агрегата и другие функции R для генерации отчета, например, подсчета каждой категории в таблице. В SparkR функция textFile возвращает RDD, и я хочу использовать ее с помощью функции R. R доступны для данных и других типов данных R. Есть ли какой-либо образец кода или руководство разработчика, пожалуйста, предложите.Использование R-функций в SparkR

ответ

1

Это совершенно новое. Только в феврале 2015 года DataBricks объявила о поддержке DataFrame в Spark. https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html.

Ссылка, предоставленная мной, имеет образец кода для Python, но такой API существует в Python, Java, Scala и R (в разработке через SparkR) согласно объявлению.

+0

Спасибо. Я нашел эту ссылку во время поиска ответа. Я не читал его полностью, этот DataFrame не является одним и тем же типом R. Позвольте мне проверить, могу ли я написать оператор, такой как таблица (dataframe $ диабет, dataframe $ status), где диабет и статус - поле в области данных – Shailesh

Смежные вопросы