У меня есть сценарий R, похожий на примерный, где вы загружаете некоторые данные из hdfs, а затем храните их как-то в этом случае через Parquet .Экспорт данных из задания sparkR
library(SparkR)
# Initialize SparkContext and SQLContext
sc <- sparkR.init()
sqlContext <- sparkRSQL.init(sc)
# Create a simple local data.frame
localDF <- data.frame(name=c("John", "Smith", "Sarah"), age=c(19, 23, 18))
# Create a DataFrame from a JSON file
peopleDF <- jsonFile(sqlContext, file.path("/people.json"))
# Register this DataFrame as a table.
registerTempTable(peopleDF, "people")
# SQL statements can be run by using the sql methods provided by sqlContext
teenagers <- sql(sqlContext, "SELECT name FROM people WHERE age >= 13 AND age <= 19")
# Store the teenagers in a table
saveAsParquetFile(teenagers, file.path("/teenagers"))
# Stop the SparkContext now
sparkR.stop()
Как именно я извлечь данные из кластера в другой свече приложения? В настоящее время я рассматриваю подключение к мастеру hdfs и извлечение файлов в соответствии с this example, , за исключением замены sbt-бережливости на scrooge.
Есть ли более идиоматический способ получения данных без прямого подключения к клану hadoop? Я считал, что копирование данных из hdfs, но паркет можно читать только с хаопа из того, что я понял .