2016-01-12 3 views
3

Я пытаюсь использовать все ресурсы, которые у меня есть в кластере, чтобы запустить работу Spark. У меня есть Cloudera Manager, установленный на всех узлах. Это команда, которую я использую для подачи задания.Запуск работы Spark по YARN

spark-submit --master yarn 
      --deploy-mode cluster 
      file:///[spark python file] 
      file://[app argument 1] 
      file://[app argument 2] 

Во время исполнения я получать следующее сообщение об ошибке:

diagnostics: Application application_1450777964379_0027 failed 2 times due to AM Container for appattempt_1450777964379_0027_000002 exited with exitCode: 1 

Любые идеи, как это исправить будет оценена.

EDIT 1 машина, где установлен Спарк не доступен WEB UI Я попытался загрузить исходники и читать немного больше об исключении.

------------------------------------------------------------ 
| Job | Description          | 
------------------------------------------------------------ 
| 0 | saveAsTextFile at NativeMethodAccessorImpl.java:-2 | 
------------------------------------------------------------ 
+0

Есть ли у вас разрешения, чтобы сохранить файл в файловой системе? – BlueMoon93

+0

Поскольку это кластер, на каждой машине я создал супергруппу, и каждый пользователь в этой группе имеет права на чтение/запись в папку, где должен быть записан вывод –

ответ

0

Взятые из here,

If the path starts with file:// or hdfs://, the path becomes ile:// or dfs://. If the path is absolute the first slash is removed.

There is no particular reason for it and needs to be fixed.

Попробуйте использовать абсолютный путь вместо file://

+0

Я видел эту тему, но у меня были абсолютно такие же результаты, ничего нового, описание ошибки одинаково –

+1

Тогда я бы посоветовал вам использовать список рассылки Spark. Вероятно, они могут предоставить больше помощи, чем SO-сообщество (я сомневаюсь, что в этой теме будут другие ответы, если кто-то не наложит на нее щедрость). Http://apache-spark-user-list.1001560.n3.nabble.com/ – BlueMoon93