Как увидеть содержимое каждого раздела в RDD в pyspark?

Я хочу узнать немного больше о том, как данные разделяют pyspark. Мне нужна функция такая, что:Как увидеть содержимое каждого раздела в RDD в pyspark?

a = sc.parallelize(range(10), 5) 
show_partitions(a) 

#output:[[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]] (or however it partitions)

2015-12-11 Bovard

glom функция то, что вы ищете:

завесе (само): Возвращает RDD созданный сливающихся все элементы внутри каждого раздела в списке.

a = sc.parallelize(range(10), 5) 
a.glom().collect() 
#output:[[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]

2015-12-11 04:54:55 Bovard

ответ