1
Я хочу, чтобы dropDuplicates
в каждом разделе, а не в полном формате DataFrame.SPARK: dropDuplicates только в каждом разделе
Возможно ли это с помощью PySpark? Благодарю.
Я хочу, чтобы dropDuplicates
в каждом разделе, а не в полном формате DataFrame.SPARK: dropDuplicates только в каждом разделе
Возможно ли это с помощью PySpark? Благодарю.
import pyspark.sql.functions as f
withNoDuplicates = df.withColumn("partitionID", f.spark_partition_id()).dropDuplicates()
В основном добавить столбец идентификатора раздела с помощью spark_partition_id, а затем сделать отчетливые, он будет рассматривать различные разделы отдельно
После dropDuplicates в каждом разделе, Есть ли искра перетасовать и повторно dropDuplicates снова, чтобы удалить возможно дублировать элементы в разных разделах? –
@KevinLeo Я не уверен, что понял вопрос. –
Предположим, что «df» имеет 30 разделов. После добавления столбца partitionID и dropDuplicate в каждом разделе мы получаем 30 наборов результатов. Произойдет ли перетасование 30 наборов результатов и снова проверьте дубликаты? –