Мне было интересно, может ли кто-нибудь помочь мне с этой проблемой при развертывании искрового кластера с помощью инструмента bdutil. Когда общее количество ядер увеличение (> = 1024), он не все время со следующими причинами:Никогда не удалось построить большой хаос и искровой кластер
Некоторые машины никогда не sshable, как «Ср Дек 8 13:45:14 PST 2015: «hadoop-w-5» еще не sshable (255); спать «
Некоторые узлы терпят неудачу с ошибкой« Exited 100 »при развертывании узлов искровой рабочей станции, например« Вторник 8 декабря 15:28:31 PST 2015: Exited 100: gcloud --project = cs-bwamem --quiet --verbosity = info compute ssh hadoop-w-6 --command = sudo su -l -c "cd $ {PWD} & & ./deploy-core- setup.sh "2 >> deploy-core-setup_deploy.stderr 1 >> deploy-core-setup_deploy.stdout --ssh -flag = -tt --ssh-флаг = -oServerAliveInterval = 60 --ssh-флаг = -oServerAliveCountMax = 3 --ssh-флаг = -oConnectTimeout = 30 = --zone нам-central1-е»
В файле журнала, он говорит:
Hadoop-ш-40: ==> разворачивать-ядро-setup_deploy.stderr < ==
Hadoop-ш-40: DPKG-запрос: пакет «OpenJDK -7-jdk 'не установлен и информация отсутствует
hadoop-w-40: Используйте dpkg -info (= dpkg-deb -info) для проверки архивных файлов,
hadoop-w-40: и dpkg --contents (= dpkg-deb --contents), чтобы перечислить их содержимое.
hadoop-w-40: Не удалось получить http://httpredir.debian.org/debian/pool/main/x/xml-core/xml-core_0.13+nmu2_all.deb Ошибка чтения с сервера. Дистанционное закрытое соединение [IP: 128.31.0.66 80]
hadoop-w-40: E: Не удалось получить некоторые архивы, возможно, запустить apt-get update или попробовать с -fix-missing?
Я попытался использовать 16-ядерные 128-узловые, 32-ядерные 64-х узлы, 32-ядерные 32-разрядные и другие по 1024-ядерным конфигурациям, но либо вышли вышеизложенные причины 1 или 2.
Я также попытался изменить ssh-флаг, чтобы изменить ConnectTimeout на 1200 и изменить bdutil_env.sh, чтобы установить интервал опроса в 30, 60, ..., ни один из них не работает. Всегда будут какие-то узлы, которые терпят неудачу.
Вот одна из конфигураций, которые я использовал:
время ./bdutil \ --bucket $ ВЕДРО \ --force \ --machine_type n1-Highmem-32 \ --master_machine_type n1 -highmem-32 \ --num_workers 64 \ --project $ ПРОЕКТА \ --upload_files $ {JAR_FILE} \ --env_var_files hadoop2_env.sh, расширение/искровой/spark_env.sh \ развернуть