2016-04-28 4 views
0

У меня есть несколько заданий на python, которые мне нужно выполнить с помощью искры. Однако код на Python не использует какие-либо искробезопасные распределенные библиотеки. Он просто использует панды, scipy и sklearn для управления данными.Spark jobs работает только на master

я представить работу, чтобы вызвать с помощью команды: spark-submit --master spark://ip:7077 python_code.py

Когда я представляю несколько таких работ, все работы выполняются только на мастера. CPU на master переходит на 100%, но рабочие узлы все простаивают. Я бы подумал, что диспетчер ресурсов spark будет распределять нагрузку по кластеру.

Я знаю, что мой код не использует ни одну из распределенных библиотек, предоставляемых искру, но есть ли способ распространять полные задания на разные узлы?

ответ

0

Без искр API (собирать/принимать/сначала/saveAsTextFile) ничего не будет выполнено для исполнителей. Невозможно распространять простой код python, просто отправляя на искру. (https://github.com/dask/dask).

Смежные вопросы