2015-03-23 3 views
0

Как я являюсь R программист я хочу использовать R в качестве интерфейса для искриться, с пакетом sparkR я установил sparkR в R.Как читать CSV-файл и конвертировать в РДУ в sparkR

Я новичок sparkR. Я хочу выполнить некоторые операции над конкретными данными в CSV-записи. Я пытаюсь прочитать файл csv и преобразовать его в rdd.

This is the code i did: 
sc <- sparkR.init(master="local") # created spark content 
data <- read.csv(sc, "/home/data1.csv") 
#It throws an error, to use read.table 

Data i have to load and convert - http://i.stack.imgur.com/sj78x.png 

if am wrong, how to read this data in csv and convert to RDD in sparkR 

ТИА

ответ

1

Я считаю, что эта проблема является строкой заголовка, если вы удалите эту строку, она должна работать.

How do I convert csv file to rdd

--edited--

С помощью этого кода вы можете проверить Sparkr с томами CSV, но вам нужно удалить строку заголовка в файле CSV.

lines <- textFile(sc, "/home/data1.csv") 
csvElements <- lapply(lines, function(line) { 
#line represent each CSV line i. e. strsplit(line, ",") is useful 
}) 
+0

Спасибо за ваш ответ, я хочу код в R, если возможно, вы можете написать код и показать. –

+0

Арун: Я думаю, что @Alvaro говорит, что перед тем, как прочитать его, вам нужно снять заголовок CSV-файла при его экспорте. – pconcepcion

+0

линии <- Textfile (SC, "/home/data1.csv") csvElements <- lapply (строки, функция (линия) { \t #line представляет каждую строку CSV т.е. strsplit (строка "") является полезной }) @pconcepcion :) –

0

В недавнем SparkR версии (2.0+)

read.df(path, source = "csv") 

В Спарк 1.x

read.df(sc, path, source = "com.databricks.spark.csv") 

с

spark.jars.packages com.databricks:spark-csv_2.10:1.4.0 
0

Это ниже код позволит вам прочитать csv с заголовком. Все самое лучшее

val csvrdd = spark.read.options(“header”,”true”).csv(filename) 
Смежные вопросы