0
Я хочу реализовать некоторый последовательный алгоритм на RDD.Глобальный последовательный доступ Apache Spark RDD
Например:
val conf = new SparkConf()
conf.setMaster("local[2]").
setAppName("SequentialSuite")
val sc = new SparkContext(conf)
val rdd = sc.
parallelize(Array(1, 3, 2, 7, 1, 4, 2, 5, 1, 8, 9), 2).
sortBy(x => x, true)
rdd.foreach(println)
Я хочу видеть заказанный номер на моем экране, но это показывает, неупорядоченные целые числа. Эти два раздела одновременно выполняют команду println
.
Как сделать RDD выполнять функцию глобально последовательной?
Перегородки обрабатываются параллельно, так почему вы Явно установить 2 перегородки? –
Поскольку у меня есть большой объем данных для обработки, а фрагмент кода - всего лишь доказательство концепции. – wush978