2015-07-24 5 views
0

У меня есть сценарий R, похожий на примерный, где вы загружаете некоторые данные из hdfs, а затем храните их как-то в этом случае через Parquet .Экспорт данных из задания sparkR

library(SparkR) 

# Initialize SparkContext and SQLContext 
sc <- sparkR.init() 
sqlContext <- sparkRSQL.init(sc) 

# Create a simple local data.frame 
localDF <- data.frame(name=c("John", "Smith", "Sarah"), age=c(19, 23, 18)) 

# Create a DataFrame from a JSON file 
peopleDF <- jsonFile(sqlContext, file.path("/people.json")) 

# Register this DataFrame as a table. 
registerTempTable(peopleDF, "people") 

# SQL statements can be run by using the sql methods provided by sqlContext 
teenagers <- sql(sqlContext, "SELECT name FROM people WHERE age >= 13 AND age <= 19") 

# Store the teenagers in a table 
saveAsParquetFile(teenagers, file.path("/teenagers")) 

# Stop the SparkContext now 
sparkR.stop() 

Как именно я извлечь данные из кластера в другой свече приложения? В настоящее время я рассматриваю подключение к мастеру hdfs и извлечение файлов в соответствии с this example, , за исключением замены sbt-бережливости на scrooge.

Есть ли более идиоматический способ получения данных без прямого подключения к клану hadoop? Я считал, что копирование данных из hdfs, но паркет можно читать только с хаопа из того, что я понял .

ответ

0

Запустите SparkContext с мастером local и используйте SparkSQL для извлечения данных.

Смежные вопросы