2016-08-30 3 views
1

Я пытаюсь читать из базы данных DB2 на основе запроса. Результирующий набор запроса составляет около 20-40 миллионов записей. Раздел DF выполняется на основе столбца, который является целым числом.Необходимо знать детали раздела в Dataframe Spark

Мой вопрос в том, что после загрузки данных, как я могу проверить, сколько записей было создано для каждого раздела. В основном, что я хочу проверить, происходит ли перекос данных или нет? Как проверить количество записей на один раздел?

ответ

1

Вы можете, например, карты над разделами и определить их размеры:

val rdd = sc.parallelize(0 until 1000, 3) 
val partitionSizes = rdd.mapPartitions(iter => Iterator(iter.length)).collect() 

// would be Array(333, 333, 334) in this example 

Это работает как для ДРРА и/DataFrame API Dataset.

Смежные вопросы