1
Я хочу узнать немного больше о том, как данные разделяют pyspark. Мне нужна функция такая, что:Как увидеть содержимое каждого раздела в RDD в pyspark?
a = sc.parallelize(range(10), 5)
show_partitions(a)
#output:[[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]] (or however it partitions)