Установить Spark на существующий кластер Hadoop

Я не системный администратор, но мне, возможно, потребуется выполнить административную задачу и, следовательно, вам потребуется помощь.Установить Spark на существующий кластер Hadoop

У нас есть (удаленный) кластер Hadoop, и люди обычно запускают задания сокращения масштаба на кластере.

Я планирую установить Apache Spark на кластере, чтобы можно было использовать все машины в кластере. Это должно быть возможно, и я прочитал от http://spark.apache.org/docs/latest/spark-standalone.html «Вы можете запустить Spark рядом с существующим кластером Hadoop, просто запустив его как отдельную услугу на тех же машинах ...»

Если вы сделали это раньше, пожалуйста, дайте мне подробные шаги, чтобы создать Spark-кластер.

источник

2016-07-08 PTDS

Если у вас есть Hadoop уже установлен на кластере и хотите запустить искру на ПРЯЖИ это очень легко:

Шаг 1: Найти ПРЯЖА Мастер узел (т.е. который запускает диспетчер ресурсов). Следующие шаги должны выполняться только на главном узле.

Шаг 2:Download пакет Spark tgz и извлеките его где-нибудь.

Шаг 3: Определить эти переменные окружения, в .bashrc, например:

# Spark variables 
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop 
export SPARK_HOME=<extracted_spark_package> 
export PATH=$PATH:$SPARK_HOME/bin

Шаг 4: Запустите искровой работу с помощью опции --master в yarn-client или yarn-master:

spark-submit \ 
--master yarn-client \ 
--class org.apache.spark.examples.JavaSparkPi \ 
$SPARK_HOME/lib/spark-examples-1.5.1-hadoop2.6.0.jar \ 
100

В этом конкретном примере используется предварительно скомпилированное примерное задание, которое поставляется с установкой Spark на.

Вы можете прочитать this blog post Я написал для более подробной информации об установке Hadoop и Spark на кластере.

Вы можете прочитать сообщение, которое следует, чтобы посмотреть, как скомпилировать и запустить собственную работу Spark в Java. Если вы хотите закодировать задания в Python или Scala, его удобно использовать ноутбук типа IPython или Zeppelin. Подробнее о том, как использовать их с кластером Hadoop-Spark here.

источник

2016-07-08 06:19:39 Nicomak

Установить Spark на существующий кластер Hadoop

ответ

Смежные вопросы