hadoop - Уменьшение карты на нескольких кластере

Я настроил кластер Hadoop. И им с двумя машинами MA и MB Когда я запустить программу MapReduce, используя следующий кодhadoop - Уменьшение карты на нескольких кластере

hadoop jar /HDP/hadoop-1.2.0.1.3.0.0-0380/contrib/streaming/hadoop-streaming-1.2.0.1.3.0.0-0380.jar -mapper "python C:\Python33\mapper.py" -reducer "python C:\Python33\redu.py" -input "/user/XXXX/input/input.txt" -output "/user/XXXX/output/out20131112_09"

где: картографа - C: \ Python33 \ mapper.py и восстановитель C: \ Python33 \ redu.py в локальном диске MB в

UPDATE enter image description here

Наконец я отследил вниз по ошибке.

MA- журнал ошибок

stderr logs 
python: can't open file 'C:\Python33\mapper.py': [Errno 2] No such file or directory 
java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2

картографа - C: \ Python33 \ mapper.py и восстановитель C: \ Python33 \ redu.py в локальном диске ОЭ и не в MB

Теперь мне нужно скопировать мой м/г программы для MA или как должен я решить эту

Mapper ли

import sys 
for line in sys.stdin: 
    line = line.strip() 
    keys = line.split() 
    for key in keys: 
     value = 1 
     print('%s \t %d' % (key, value))

источник

2013-11-12 Backtrack

см. Http://wiki.apache.org/hadoop/HowManyMapsAndReduces – alko

@alko на приведенной выше картинке, вы можете обнаружить, что входные данные разделены на несколько блоков в машине DEV144. .. Я прав? – Backtrack

из вашего журнала кажется, что на dev140 была успешно выполнена одна задача карты, и один из них 4 раза подряд. что противоречит вашему вопросу – alko

Если входной файл карты меньше, чем dfs.block.size то закончится только с одной задачи на задание выполняется. Для небольших входов вы можете заставить Hadoop выполнять несколько задач с mapred.max.split.size значением в байтах меньше dfs.block.size.

источник

2013-11-12 13:01:02

мой input.txt в 145 МБ. Как проверить те свойства, о которых вы упоминали. Пожалуйста, помогите мне, новичок в семье hadoop – Backtrack

, вы можете получить доступ к информации JobTracker на DEV144: 50030. Там вы увидите все зарегистрированные карты/уменьшите узлы. Убедитесь, что максимальные задачи (карта/сокращение) для каждого клиента больше 0. Когда задание выполняется, зайдите в Jobtracker, а затем выберите текущую задачу, вы сможете увидеть все свойства из файла конфигурации задания и сравнить значения , –

привет, я обновил вопрос, и я добавил изображение DEV144: 50030 .. – Backtrack

hadoop - Уменьшение карты на нескольких кластере

ответ

Смежные вопросы