У меня есть набор данных, который я пишу на S3 с помощью DataFrameWriter. Я использую Parquet, а также выполняю вызов partitionBy в столбце с 256 различными значениями. Он работает хорошо, но занимает некоторое время, чтобы написать набор данных (и читать другие задания). В отладке я заметил, что запись только выводит 256 файлов, по одному на суффикс, несмотря на то, что мой repartition
вызов содержит 256 разделов. Есть ли способ увеличить количество файлов, выводимых для каждого значения partitionBy?Изменение количества выходных файлов с использованием DataFrameWriter в Spark
Мой код выглядит следующим образом:
myDS = myDS.repartition(256, functions.col("suffix"));
myDS.write().partitionBy("suffix").parquet(String.format(this.outputPath, "parquet", this.date));