Как настроить Zeppelin для работы с удаленным кластером пряжи EMR

У меня есть Amazon EMR Hadoop v2.6 cluster с Spark 1.4.1, с менеджером ресурсов пряжи. Я хочу развернуть Zeppelin на отдельной машине, чтобы отключить кластер EMR, когда нет заданий.Как настроить Zeppelin для работы с удаленным кластером пряжи EMR

Я пробовал следующую инструкцию от https://zeppelin.incubator.apache.org/docs/install/yarn_install.html с небольшим успехом.

Может ли кто-нибудь демистифицировать шаги, как Zeppelin должен подключаться к существующему кластеру пряжи с разных машин?

источник

2015-09-15 snowindy

[1] установить дирижабль с соответствующим Params:

git clone https://github.com/apache/incubator-zeppelin.git ~/zeppelin; 
cd ~/zeppelin; 
mvn clean package -Pspark-1.4 -Dhadoop.version=2.6.0 -Phadoop-2.6 -Pyarn -DskipTests

[2] группы безопасности Обновления EMR_MASTER EC2 принимать входящие запросы от всех портов, общаться с Цеппелин (должно быть определенным портом, но не знает, какое)

[3] Скопируйте каталог EMR_MASTER:/etc/hadoop/conf в MY_STANDALONE_SERVER:/home/zeppelin/hadoop-conf.

[4] дирижабль/CONF/zeppelin-env.sh должен содержать:

export MASTER=yarn-client 
export HADOOP_CONF_DIR=/home/zeppelin/hadoop-conf

Примечание: параметры, такие как свечи spark.executor.instances берутся из настроек переводчика, указывается там.

источник

2015-09-15 18:42:55 snowindy

Как настроить Zeppelin для работы с удаленным кластером пряжи EMR

ответ

Смежные вопросы