У меня есть файл CSV, который является «полуструктурированный»Maniputale CSV с искрой
canal,username,email,age
facebook,pepe22,[email protected],24
twitter,foo-24,[email protected],33
facebook,caty24,,22
предположит, что я хочу, чтобы первый столбец второй и третий столбец в org.apache.spark.rdd RDD .RDD [(String, String, String)]
Я действительно новый, им с помощью искры 1.4.1, мой код достигают здесь
val rdd = sc.textFile("/user/ergorenova/socialmedia/allus/test").map(_.split(","))
Может кто-нибудь мне помочь?
Я действительно ценю это
Возможный дубликат функции [Scala map over RDD] (http://stackoverflow.com/questions/24565351/scala-map-function-over-rdd) –