вход разделить логическая фрагмент файла, хранящегося на HDFS, по умолчанию вход сплит представляет собой блок файла где блоки файла может быть сохранен на многих узлах данных в кластере.
A container - это шаблон выполнения задачи, назначенный диспетчером ресурсов на любом узле данных для выполнения задач Map/Reduce.
Сначала Карта задач запускается на выполнение контейнерами на узле данных, где контейнер был выделенных менеджером ресурсов как можно ближе к месту расположения Input Сплита, придерживаясь политики Awareness Rack (Local/Rack Local/DC Local).
Задачи Уменьшить Задачи будут выполняться любыми случайными контейнерами на любых узлах данных, а редукторы будут копировать соответствующие данные от каждого преобразователя процессом Shuffle/Sort.
Мапперы подготавливают результаты таким образом, что результаты внутренне разделены и внутри каждого раздела записи сортируются по ключу, а секционист определяет, какой редуктор должен извлекать секционированные данные.
По случайном порядке и сортировки, копии Редукторы их соответствующие разделы из каждой Картостроители выхода через HTTP, в конце концов, каждый редуктор Merge & Сортировать скопированные разделы и подготавливает окончательный единый отсортированный файл перед методом уменьшения() вызывается.
Изображение ниже может дать больше разъяснений. [IMAGESRC: http://www.ibm.com/developerworks/cloud/library/cl-openstack-deployhadoop/]
Заканчивать это [ссылка] (http://stackoverflow.com/questions/22141631/what-is-the-purpose-of-shuffling-and-sorting-phase- in-the-reducer-in-map-reduce) – laurentgir
@oftata: эта ссылка объясняет уменьшение карты. Но я спросил, где происходит сокращение карты? – logan
Согласен, но в ответе на учебник Yahoo есть ссылка, которая отвечает на ваш вопрос. – laurentgir