Как динамически выбирать spark.sql.shuffle.partitions

В настоящее время я обрабатываю данные, используя секцию spark и foreach, открывая соединение с mysql и вставляя его в базу данных в партии 1000. Как указано в значении по умолчанию SparkDocumentationspark.sql.shuffle.partitions - 200, но я хочу сохранить его динамичным. Итак, как я его вычисляю. Следовательно, при выборе очень высокого значения, вызывающего ухудшение производительности, или при выборе очень маленького значения, вызывающего OOM.Как динамически выбирать spark.sql.shuffle.partitions

источник

2016-06-06 Naresh

-2

Вы можете использовать df.repartition (numPartitions) способ для этого. Вы можете принять решение на основе входного/промежуточного вывода и передать numPartitions в метод repartition().

df.repartition(numPartitions) or rdd.repartition(numPartitions)

источник

2016-06-15 04:46:39

Нет, это не работает: df.repartition (numPartitions) – tauitdnmd

Как динамически выбирать spark.sql.shuffle.partitions

ответ

Смежные вопросы