2016-06-09 2 views
0

У меня есть проект pyspark с скриптом python, который запускает искрообразование. У меня есть некоторые внешние зависимости, которые я запускаю с флагом --packages.Упаковка как jar для pyspark

Тем не менее, в scala мы можем использовать maven для загрузки всех необходимых пакетов, сделать файл jar с основной программой искры и иметь все в одной банке, а затем просто использовать spark-submit, чтобы отправить его в кластер (пряжа в моем случае).

Есть ли такие похожие вещи, как jar для pyspark?

Данной информации об официальной документации искры нет. Они просто упоминают использование spark-submit <python-file> или добавьте --py-files, но это не так профессионально, как файл jar.

Любое предложение было бы полезно! Благодаря!

ответ

1

В документации говорится, что вы можете использовать почтовый индекс или яйцо.

Для приложений Python, просто передать файл .py в месте вместо JAR и добавить Python .zip, .egg или .py файлы на пути поиска с --py-файлов.

Source

Вы также можете найти other parameters полезным.

Смежные вопросы