2015-03-02 4 views
0

Я пытаюсь запустить команду Dumbo MapReduce на кластере hadoop, но получаю следующую ошибку.Dumbo mapreduce for hadoop

15/03/02 17:55:28 ОШИБКА streaming.StreamJob: Работа не удалась. Ошибка: NA 15/03/02 17:55:28 INFO streaming.StreamJob: killJob ... Ошибка потоковой команды!

Кажется, что мне нужно предоставить путь к поточной банке Hadoop. Как я могу найти это и что такое потоковая фляга Hadoop?

Моя команда Дамбо выглядит следующим образом:

Дамбо начать test_dumbo6.py -hadoop/приложения/Hadoop/-input /storage/user/jj/json.log -output ipcounts2

ответ

0

Doc на Hadoop Streaming : http://hadoop.apache.org/docs/r1.2.1/streaming.html

Hadoop streaming является частью ядра hadoop, поэтому он должен быть доступен в каталоге $ Hadoop_HOME/lib.

Эта библиотека может быть добавлена ​​к вашей работе, добавив дополнительный аргумент:

-libjar <path_to_jar>