Мои исходные данные из файла CSV является:Спарк РДД карта внутренний объект Row
1 ,21658392713 ,21626890421
1 ,21623461747 ,21626890421
1 ,21623461747 ,21626890421
Данные у меня после нескольких преобразований и группировки на основе бизнес-логики дает
scala> val sGrouped = grouped
sGrouped: org.apache.spark.rdd.RDD[(String, Iterable[(String,
(Array[String], String))])] = ShuffledRDD[85] at groupBy at <console>:51
scala> sGrouped.foreach(f=>println(f))
(21626890421,CompactBuffer((21626890421,
([Ljava.lang.String;@62ac8444,21626890421)),
(21626890421,([Ljava.lang.String;@59d80fe,21626890421)),
(21626890421,([Ljava.lang.String;@270042e8,21626890421)),
из это я хочу получить карту, которая дает что-то вроде следующего формата:
[String, Row[String]]
, так что данные могут выглядеть так:
[ 21626890421 , Row[(1 ,21658392713 ,21626890421)
, (1 ,21623461747 ,21626890421)
, (1 ,21623461747,21626890421)]]
Я очень ценю любые рекомендации по продвижению по этому вопросу.
Вы хотите, чтобы строка или просто массив был достаточным? – Kakarot
Нет такой вещи, как 'Row [String]'. И что именно 'Array' от' (Array [String], String) 'сопоставляется с вашим желаемым выходом? – zero323