2016-06-06 4 views
4

В настоящее время я обрабатываю данные, используя секцию spark и foreach, открывая соединение с mysql и вставляя его в базу данных в партии 1000. Как указано в значении по умолчанию SparkDocumentationspark.sql.shuffle.partitions - 200, но я хочу сохранить его динамичным. Итак, как я его вычисляю. Следовательно, при выборе очень высокого значения, вызывающего ухудшение производительности, или при выборе очень маленького значения, вызывающего OOM.Как динамически выбирать spark.sql.shuffle.partitions

ответ

-2

Вы можете использовать df.repartition (numPartitions) способ для этого. Вы можете принять решение на основе входного/промежуточного вывода и передать numPartitions в метод repartition().

df.repartition(numPartitions) or rdd.repartition(numPartitions) 
+0

Нет, это не работает: df.repartition (numPartitions) – tauitdnmd

Смежные вопросы