2015-04-12 2 views
3

Я пытаюсь запустить толстую банку на Spark-кластере, используя Spark submit. Я создал кластер, используя исполняемый файл «spark-ec2» в пакете Spark на AWS.Spark Submit Issue

Команда, я использую для запуска файла баночки

bin/spark-submit --class edu.gatech.cse8803.main.Main --master yarn-cluster ../src1/big-data-hw2-assembly-1.0.jar 

В начале он дает мне ошибку, что по крайней мере один из или YARN_CONF_DIR переменной среды HADOOP_CONF_DIR должны быть установлены. я не знаю, что установить их, так что я использовал следующую команду

export HADOOP_CONF_DIR=/mapreduce/conf 

Теперь изменилась ошибка в

Could not load YARN classes. This copy of Spark may not have been compiled with YARN support. 
Run with --help for usage help or --verbose for debug output 

Структура домашнего каталога заключается в следующем

ephemeral-hdfs hadoop-native mapreduce persistent-hdfs scala spark spark-ec2 src1 tachyon 

Я даже установил переменную YARN_CONF_DIR в то же значение, что и HADOOP_CONF_DIR, но сообщение об ошибке не меняется. Я не могу найти документацию, которая подчеркивает эту проблему, большинство из них просто упоминают эти две переменные и не дают никаких дополнительных сведений.

ответ

2

Вам нужно собрать искры от пряжи, чтобы использовать его.

Следуйте указаниям, приведенным здесь: https://spark.apache.org/docs/latest/building-spark.html

Maven:

build/mvn -Pyarn -Phadoop-2.x -Dhadoop.version=2.x.x -DskipTests clean package 

SBT:

build/sbt -Pyarn -Phadoop-2.x assembly 

Вы также можете загрузить предварительно скомпилированных версию здесь: http://spark.apache.org/downloads.html (выбрать «предварительно -строенный для Hadoop ")

0

--master аргумент должен быть: --master spark://hostname:7077 где имя хоста это имя вашего главного Спарк сервера. Вы также можете указать это значение как spark.master в файле spark-defaults.conf и оставить аргумент --master при использовании Spark submit из командной строки. Включение аргумента --master переопределит значение, установленное (если оно существует) в файле spark-defaults.conf.

Ссылка: http://spark.apache.org/docs/1.3.0/configuration.html