В Pyspark, я могу создать RDD из списка и решить, сколько разделов иметь:Количество разделов в РДУ и производительности в Спарк
sc = SparkContext()
sc.parallelize(xrange(0, 10), 4)
Как число разделов решаю разметить RDD в влиянии производительности? И как это зависит от числа ядер моей машины?
Я настоятельно рекомендую это [ссылка] (http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/). Перейти к разделу «Параллельность настройки». Это становится довольно сложно, но это, безусловно, в глубине. –