2013-12-15 2 views
0

Ниже приведены шаги в серийном режиме, и между ними есть вопросы. Пожалуйста, поправьте меня, если я ошибаюсь и немного поработаю.Понимание процесса карты/уменьшения. У вас есть несколько вопросов.

  • Клиент/пользователь отправляет запрос на JobTracker. JobTracker - это программное обеспечение, которое находится в узле имени.
  • JobTracker делит задание на небольшие проблемы и предоставляет TaskTracker. TaskTracker - это программное обеспечение, которое находится в узле данных. TaskTracker может сделать это снова, что приведет к многоуровневой древовидной структуре.
  • Шаг отображения происходит только в TaskTracker не в JobTracker?
  • Shuffle и сортировка происходит. Выполняется ли этот шаг на этапе Mapper или Reducer?
  • Выход в случайном порядке и сортировка подается на шаг редуктора?
  • Шаг редуктора происходит только в JobTracker, а не в TaskTracker?
  • Этап редуктора, то есть JobTracker not TaskTracker объединяет данные и дает результат клиенту/пользователю.
  • Для объединения результата используется только 1 редуктор?

Благодаря

+0

Этот вопрос стиля действительно трудно ответить на stackoverflow. Кроме того, почти каждая строка в этом неверна ... поэтому не уверен, откуда вы берете эти предположения. –

ответ

1

Клиент/пользователь отправляет запрос на JobTracker. JobTracker - это программное обеспечение, которое находится в узле имени.

JobTracker - это демон, который может находиться в отдельной машине, отличной от наменода.

JobTracker делит работу на небольшие проблемы и предоставляет TaskTracker.

JobTracker обрабатывает задания MapReduce для определенных узлов в кластере, в идеале - узлы, которые имеют данные, или, по крайней мере, находятся в одной стойке.

TaskTracker - это программное обеспечение, которое находится в узле данных. TaskTracker может сделать это снова, что приведет к многоуровневой древовидной структуре.

Обычно да. TaskTracker может работать в одиночку, но определенно нужен datanode для работы где-то.

Шаг отображения происходит только в TaskTracker не в JobTracker?

Задачи Карта запускаются TaskTracker

Перемешать и сортировка происходит. Выполняется ли этот шаг на этапе Mapper или Reducer?

Процесс перетасовки и сортировки фактически находится между фазой карты и фазой уменьшения. Но они актуальны только для фазы снижения. Без шага по фазе уменьшения и сортировки не произойдет. Итак, мы можем сказать: у Reducer есть 3 первичные фазы: перетасовка, сортировка и уменьшение.

Выход в случайном порядке и сортировка подается на шаг редуктора?

При перемещении и сортировке фреймворк выбирает соответствующий раздел вывода всех картографов через HTTP. Ввод в редуктор - это сортированный вывод картографов.

Этап редуктора происходит только в JobTracker, а не в TaskTracker?

Уменьшение задач запускается TaskTracker.

Редукторный шаг i.e JobTracker not TaskTracker объединяет данные и дает результат клиенту/пользователю.

Уменьшение задач - это то, что должно выполняться параллельно в нескольких узлах и передавать результаты в HDFS. Вы можете прочитать выходные данные из конечных наборов данных из разных редукторов и объединить их в драйвере MapReduce, если хотите.

Только 1 редуктор используется для объединения результата?

Это будет зависеть от того, что вы хотите сделать. Но наличие одной задачи сокращения, несомненно, приведет к снижению производительности из-за отсутствия параллелизма, если у вас есть большие данные для обработки в одной задаче сокращения.

0

Действительно вам нужно это: Hadoop: The Definitive Guide, 3rd Edition. Самое полезное руководство по данной теме.

Некоторые примечания:

  1. Hadoop в основном является сочетание 2-х вещей: HDFS как "хранение" и рамках MapReduce как "CPU".
  2. NameNode относится к HDFS, JobTracker относится к MapReduce. MapReduce использует службу HDFS, но JobTracker и NameNode - это совершенно разные службы и не должны располагаться на одном узле.
  3. Снова DataNode является объектом HDFS, но TaskTracker является компонентом MapReduce, и они независимы. На практике они часто располагаются на одном узле, но это не то, что исправлено.
  4. Сами работы выполняются TaskTracker. JobTracker похож на планировщик. Это связано как с шагами «Карта», так и «Уменьшение». Не забывайте о Combiner.
  5. Нет, вы можете использовать более 1 редуктора, и вы можете управлять этим, и вы можете использовать до 1 объединителя для каждого картографа, поскольку комбайнер имеет место сразу после картографа.
  6. Процесс в случайном порядке связан с выходом карты (или объединителем) так логически, что он ближе к картографу, чем к редуктору, но на самом деле вы не должны полагаться на это. Ваша свобода - сделать следующую запись и процесс. Кроме того, если настроены 0 редукторов, у вас не будет таких вещей, как тасование.
  7. Не пытайтесь заменить настоящее знание такими Q & Советы по сайту. Не работает :-).

Надеюсь, что эта помощь.

Смежные вопросы