У меня есть проект pyspark с скриптом python, который запускает искрообразование. У меня есть некоторые внешние зависимости, которые я запускаю с флагом --packages
.Упаковка как jar для pyspark
Тем не менее, в scala мы можем использовать maven для загрузки всех необходимых пакетов, сделать файл jar с основной программой искры и иметь все в одной банке, а затем просто использовать spark-submit
, чтобы отправить его в кластер (пряжа в моем случае).
Есть ли такие похожие вещи, как jar
для pyspark?
Данной информации об официальной документации искры нет. Они просто упоминают использование spark-submit <python-file>
или добавьте --py-files
, но это не так профессионально, как файл jar
.
Любое предложение было бы полезно! Благодаря!