SPARK: dropDuplicates только в каждом разделе

Я хочу, чтобы dropDuplicates в каждом разделе, а не в полном формате DataFrame.SPARK: dropDuplicates только в каждом разделе

Возможно ли это с помощью PySpark? Благодарю.

источник

2017-02-14 Kevin Leo

import pyspark.sql.functions as f 
withNoDuplicates = df.withColumn("partitionID", f.spark_partition_id()).dropDuplicates()

В основном добавить столбец идентификатора раздела с помощью spark_partition_id, а затем сделать отчетливые, он будет рассматривать различные разделы отдельно

источник

2017-02-14 07:41:00

После dropDuplicates в каждом разделе, Есть ли искра перетасовать и повторно dropDuplicates снова, чтобы удалить возможно дублировать элементы в разных разделах? –

@KevinLeo Я не уверен, что понял вопрос. –

Предположим, что «df» имеет 30 разделов. После добавления столбца partitionID и dropDuplicate в каждом разделе мы получаем 30 наборов результатов. Произойдет ли перетасование 30 наборов результатов и снова проверьте дубликаты? –

SPARK: dropDuplicates только в каждом разделе

ответ

Смежные вопросы