Я пытаюсь напечатать содержимое моего РДУ RDD[(String,List[(String,String)])]
:Невозможно напечатать содержимое РДУ
val sc = new SparkContext(conf)
val splitted = rdd.map(line => line.split(","))
val processed = splitted.map(x=>(x(1),List((x(0),x(2),x(3),x(4)))))
val grouped = processed.reduceByKey((x,y) => (x ++ y))
System.out.println(grouped)
Однако вместо того, чтобы содержимое я вижу:
ShuffledRDD[4] at reduceByKey at Consumer.scala:88
UPDATE:
Содержание TXT-файла:
100001082016,230,111,1,1
100001082016,121,111,1,1
100001082016,110,111,1,1
UPDATE 2 (весь код):
class Consumer()
{
def run() = {
val conf = new SparkConf()
.setAppName("TEST")
.setMaster("local[*]")
val sc = new SparkContext(conf)
val rdd = sc.textFile("file:///usr/test/myfile.txt")
val splitted = rdd.map(line => line.split(","))
val processed = splitted.map(x=>(x(1),List((x(0),x(2),x(3),x(4)))))
val grouped = processed.reduceByKey((x,y) => (x ++ y))
System.out.println(grouped)
}
}
Что говорит остальная часть stacktrace? –
И в Scala вы будете делать 'println (grouped.collect())'. Нет необходимости в System.out –
@ cricket_007: В этом случае я получаю '[Lscala.Tuple2; @ 5377414a'. Остальная часть стека является стандартным выходом Spark, например. '6/08/19 13:49:39 INFO DAGScheduler: Job 0 done: collect at Consumer.scala: 89, взял 0.519500 s' и т. Д. – HackerDuck