У меня есть несколько заданий на python, которые мне нужно выполнить с помощью искры. Однако код на Python не использует какие-либо искробезопасные распределенные библиотеки. Он просто использует панды, scipy и sklearn для управления данными.Spark jobs работает только на master
я представить работу, чтобы вызвать с помощью команды: spark-submit --master spark://ip:7077 python_code.py
Когда я представляю несколько таких работ, все работы выполняются только на мастера. CPU на master переходит на 100%, но рабочие узлы все простаивают. Я бы подумал, что диспетчер ресурсов spark будет распределять нагрузку по кластеру.
Я знаю, что мой код не использует ни одну из распределенных библиотек, предоставляемых искру, но есть ли способ распространять полные задания на разные узлы?