2014-11-15 2 views
2

Я искал о Hadoop и MapReduce в отношении проблем, странников и работы в этой проблеме
но вчера я обнаружил, что есть Hadoop 2 с пряжей ,,
, к сожалению, нет бумаги говорит о отставшем проблема в пряже
Итак, я хочу знать, в чем разница между MapReduce и пряжей в части отступника? Пряжа страдает от проблемы с отставкой?
и когда MRmaster запрашивает ресурс для ресурсов, ресурсоемщик предоставит MRmaster все ресурсы, которые ему нужны, или в соответствии с возможностями кластерного вычисления?
спасибо огромное,Различие между MapReduce и пряжей

ответ

2

Вы говорите «Различия между MapReduce и YARN». MapReduce и YARN определенно разные. MapReduce - это модель программирования, YARN - это архитектура для распределительного кластера. Hadoop 2 с использованием YARN для управления ресурсами. Кроме того, модель поддержки поддержки hadoop, которая поддерживает параллельную обработку, которую мы называем MapReduce. До hadoop 2, hadoop уже поддерживает MapReduce. Короче говоря, MapReduce работает над YARN Architecture. Извините, я не упоминаю об этой проблеме.

«Когда MRmaster запрашивает ресурс для ресурсов?» , когда пользователь отправляет MapReduce Job. После выполнения задания MapReduce ресурс вернется к бесплатному.

«Resource manger предоставит MRmaster все ресурсы, которые ему нужны, или в соответствии с возможностями кластерного вычисления» Я не получаю этот вопрос. Очевидно, что менеджер ресурсов предоставит весь необходимый ресурс независимо от возможностей кластерных вычислений. Кластерные вычислительные возможности будут влиять на время обработки.

+0

Прошу прощения, если мой вопрос не ясен, я просто не понимаю идею менеджера ресурсов и MRmaster ?? и не понимают, как распределять ресурсы между узлами данных? , также разве вы ничего не знаете о проблеме острие в Пряжа. Большое спасибо за ответ – Flowra

0

Если для проблемы с отставкой вы имеете в виду, что если первый парень ждет «что-то», что затем вызывает больше ожиданий по дороге, которая зависит от этого первого парня, то, я думаю, всегда есть эта проблема в работе MR. Получение выделенных ресурсов естественно участвует в этой проблеме вместе со всеми остальными вещами, которые могут заставить компоненты что-то ждать.

Tez, который должен быть заменой замены для выполнения задания MR, делает вещи по-другому. Вместо того, чтобы выполнять задачи так же, как и текущий MR-аппликатор, он пытается использовать DAG задач, которые делают гораздо лучшую работу, не попадая в проблему с плохим срывом.

Вам нужно понять взаимосвязь между MR и YARN. YARN - это просто фиктивный планировщик ресурсов, который означает, что он не планирует «задачи». То, что он дает MR Appmaster, представляет собой набор или ресурсы (в некотором смысле это всего лишь комбинация памяти и процессора и местоположения). Именно тогда MR Appmaster отвечает за решение, что делать с этими ресурсами.

4

Вот MapReduce 1.0 и 2.0 MapReduce (ПРЯЖИ)

MapReduce 1,0

В типичном кластере Hadoop, стойки соединены между собой с помощью основных переключателей. Базовые коммутаторы должны подключаться к коммутаторам верхнего уровня. Предприятиям, использующим Hadoop, следует рассмотреть возможность использования 10GbE, связанных Ethernet и резервированных коммутаторов верхнего уровня для снижения риска в случае сбоя. Файл разбит на 64MB кусков по умолчанию и распределен между узлами данных. Каждый кусок имеет коэффициент репликации по умолчанию , то есть будет 3 копии данных в любой момент времени.Hadoop является «Rack Aware» и HDFS имеет реплицированные куски на узлах на разных стойках. JobTracker назначает задачи узлам, наиболее близким к данным, в зависимости от местоположения узлов и помогает NameNode определять клиенту «ближайший» клиенту во время чтения. Администратор предоставляет сценарий, который сообщает Hadoop, в котором находится узел, например: /предприимчивыйцентр/стойка2.

Ограничения MapReduce 1.0 - Hadoop может масштабировать до 4000 узлов. Когда он превышает этот предел, он вызывает непредсказуемое поведение, такое как каскадные сбои и серьезное ухудшение общего кластера. Другая проблема заключается в многопользовательской работе - невозможно запустить другие среды, кроме MapReduce 1.0, в кластере Hadoop.

MapReduce 2,0

MapReduce 2,0 состоит из двух компонентов - ПРЯЖА, который имеет возможности управления ресурсами кластера и MapReduce.

В MapReduce 2.0, JobTracker делится на три услуги:

ResourceManager, стойкую ПРЯЖИ службы, которая принимает и запускает приложения на кластере. Задача MapReduce - это приложение. JobHistoryServer, чтобы предоставить информацию о выполненных заданиях Application Master, чтобы управлять каждым заданием MapReduce и прекращается, когда задание завершается. Кроме того, TaskTracker был заменен на NodeManager, службу YARN, которая управляет ресурсами и развертыванием на узле. NodeManager отвечает за запуск контейнеров, которые могут быть либо картой, либо сокращать задачу.

Эта новая архитектура разрушает модель JobTracker, позволяя новому ResourceManager управлять использованием ресурсов в приложениях, при этом ApplicationMasters берет на себя ответственность за управление выполнением заданий. Это изменение устраняет узкое место и позволяет кластерам Hadoop масштабироваться до более крупных конфигураций, чем 4000 узлов. Эта архитектура также позволяет одновременно выполнять различные модели программирования, такие как обработка графа, итеративная обработка, машинное обучение и общие кластерные вычисления, включая традиционный MapReduce.

Смежные вопросы