2015-03-19 2 views
0

Как начинающий хаос/искра, я следовал этому учебному курсу в этом website и успешно развернул фреймворк на моей единственной машине (CentOS 6). Теперь я хочу установить Spark 1.2 на один и тот же компьютер и позволить ему работать с одноузловым кластером пряжи на моей машине, что означает выполнение Spark SQL в файле, который хранится на hdfs на моей машине, и выводит результат в hdf. Я не нашел хороший учебник для этого сценария онлайн для остальных шагов.Как установить искру на одной машине (CentOS), которая имеет единый узел (CentOS) Яркий кластер

Что я сделал до сих пор:
(1) скачал scala 2.9.3 с официального сайта Scala и установлен. Команда scala -version работает!
(2) загрузил Spark 1.2.1 (предварительно построенный для Hadoop 2.4 или новее) с веб-сайта Apache Spark и уже разобрал его.

Что делать дальше? Как изменить какой конфигурационный файл в каталоге Spark? Может кто-нибудь дать пошаговое руководство? Особенно, как настроить spark-env.sh. Чем детальнее, тем лучше. Благодаря! (Если у вас есть вопросы о том, как я настроил свой хаос и пряжу, я выполнил именно те шаги, которые перечислены на этом веб-сайте, о котором я упоминал ранее)

ответ

1

Если вы хотите использовать YARN, тогда вы должны скомпилировать искру, используя maven. Существуют различные параметры в зависимости от того, какую поддержку вы хотите (версия hadoop, совместимость с улей и т. Д.). Вот ссылка с деталями параметров: http://spark.apache.org/docs/1.2.1/building-spark.html

Вот команда, которую я использовал для установки искры с ульем поддержки на Apache Hadoop 2.6.0:

mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4 -Phive -Phive-0.12.0 -Phive-thriftserver -DskipTests clean package 

Для выполнения одного узла кластера, то дон Не нужно менять spark-env.sh. Достаточно просто установить HADOOP_CONF_DIR или YARN_CONF_DIR в вашей среде. Для нежирного режима вам даже этого не нужно. spark-env.sh позволяет настраивать различные переменные среды в одном месте, чтобы вы могли поместить свой конфигурационный файл hadoop, настройки настройки памяти и т. д. в одном месте. Шаблон достаточно хорошо документирован.

Просто запустите компоненты кластера, используя скрипты из каталога sbin (обычно достаточно start -all.sh). Еще один момент - если вы хотите, чтобы ваш sparkSQL использовал метастартовое пространство Hive, вам нужно поместить hive-site.xml в каталог conf со значением для hive.metastore.uris, чтобы указать на ваш сервер метастор.

+0

Благодарим за ответ. Я хочу задать вопрос одной из ваших целей: «Для запуска кластера с одним узлом вам не нужно менять spark-env.sh». Если это так, то как искроет, где мои биты аддопа/пряжи? Или это нужно знать перед запуском. –

+0

Вы можете просто установить HADOOP_CONF_DIR или YARN_CONF_DIR. Spark предлагает большую гибкость в том, как вы его устанавливаете, поэтому не обязательно, чтобы вы установили его в spark-env.sh. Я установил его через скрипт оболочки в profile.d. Обновлен ответ, чтобы уточнить суть. –

+0

@Jit_B Как вы правильно настроили его для просмотра журналов искровой работы? В настоящее время, когда я запускаю пример SparkPi, и я нажимаю кнопку «Журналы» в ссылке http: //localhost.localdomain: 8088/cluster/app/application_idididid, он дает мне сообщение об ошибке «Не удалось перенаправить для container_idididid. для создания URL перенаправления на сервер журнала. URL-адрес сервера сервера не может быть настроен. java.lang.Exception: Неизвестный контейнер. Контейнер либо не запущен, либо уже завершен или не принадлежит этому узлу вообще ». –

Смежные вопросы