2016-03-23 2 views
0

Новое в области больших данных и только что началось с установки 3 узла Hadoop-кластера 2.6 с возможностью HA с использованием Zookeeper.Развертывание Apache Spark на кластере пряжи Hadoop с возможностью HA

Все работает хорошо на данный момент, и я протестировал сценарий отказоустойчивости с использованием zookeeper на NN1 и NN2 и работает хорошо.

Теперь я подумывал установить Apache Spark на мой кластер Hadoop Yarn и HA Capability.

Может ли кто-нибудь вести меня с этапов установки? Я мог только найти, как настроить Spark в автономном режиме и который у меня успешно настроен. Теперь я хочу, чтобы установить то же самое в пряжи кластера наряду с ГК Capability,

У меня есть три узла кластера (NN1, NN2, DN1), следующие демоны в настоящее время работает на каждом из этих серверов,

Nodes running in Master NameNode (NN1) 
Jps 
DataNode  
DFSZKFailoverController 
JournalNode 
ResourceManager 
NameNode  
QuorumPeerMain 
NodeManager 

Nodes running in StandBy NameNode (NN2) 
Jps 
DFSZKFailoverController 
NameNode  
QuorumPeerMain 
NodeManager 
JournalNode 
DataNode  

Nodes running in DataNode (DN1) 

QuorumPeerMain 
Jps 
DataNode  
JournalNode 
NodeManager 

ответ

0

Вы должны настроить ResourceManager HA (http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html). Spark при запуске на YARN не запускает свои собственные процессы демона, поэтому нет искровой части, которая требует HA в режиме YARN.

+0

Спасибо за быстрый ответ, так что скажем, после того, как я установил высокую доступность RM на моем кластере hadoop, тогда я должен просто выполнить обычную установку Spark во всех узлах, как показано в этом блоге (http: // backtobazics .com/big-data/6-step-to-setup-apache-spark-1-0-1-multi-node-cluster-on-centos /) –

+0

Нет, эта ссылка описывает автономную настройку искры. Чтобы запустить искру на YARN, вам просто нужно загрузить искру на клиентскую машину и запустить свои задания, используя следующие рекомендации: http://spark.apache.org/docs/latest/running-on-yarn.html – facha

0

Вы можете настроить режим искровой пряжи, в режиме Пряжа вы можете настроить драйвер и исполнителей на мощность кластера.

spark.executor.memory <value> 

Количество исполнителей выделяется на основе вашей памяти контейнера YARN!

+0

Мне удалось настроить HA для ResourceManager, но когда я пытаюсь запустить Spark как Jarn-client, я сталкиваюсь с некоторыми проблемами. Я разместил еще один вопрос http://stackoverflow.com/questions/36472113/spark-config-files –