2017-02-14 3 views

ответ

1
import pyspark.sql.functions as f 
withNoDuplicates = df.withColumn("partitionID", f.spark_partition_id()).dropDuplicates() 

В основном добавить столбец идентификатора раздела с помощью spark_partition_id, а затем сделать отчетливые, он будет рассматривать различные разделы отдельно

+0

После dropDuplicates в каждом разделе, Есть ли искра перетасовать и повторно dropDuplicates снова, чтобы удалить возможно дублировать элементы в разных разделах? –

+0

@KevinLeo Я не уверен, что понял вопрос. –

+0

Предположим, что «df» имеет 30 разделов. После добавления столбца partitionID и dropDuplicate в каждом разделе мы получаем 30 наборов результатов. Произойдет ли перетасование 30 наборов результатов и снова проверьте дубликаты? –

Смежные вопросы