В настоящее время я разрабатываю приложение Spark в Google DataProc. Часто мне нужно обновить пакет Python. Во время подготовки я запускаю следующие команды:Пакет Dataproc + python: распространение обновленных версий
echo "Downloading and extracting source code..."
gsutil cp gs://mybucket/mypackage.tar.gz ./
tar -xvzf mypackage.tar.gz
cd ./mypackage
echo "Installing requirements..."
sudo apt-get install -y python-pip
python setup.py install
Однако, что является наиболее эффективным способом распространения обновленных пакетов внутри кластера? Есть ли какая-либо автоматизация, уже встроенная (например, шеф-повар)?
В настоящее время я делаю две разные вещи: Развертывание и перезагрузка нового кластера (требуется время) или SSH для каждого узла и копирование + установка обновленного пакета.
это помогает. Спасибо. – Frank