Клиент/пользователь отправляет запрос на JobTracker. JobTracker - это программное обеспечение, которое находится в узле имени.
JobTracker - это демон, который может находиться в отдельной машине, отличной от наменода.
JobTracker делит работу на небольшие проблемы и предоставляет TaskTracker.
JobTracker обрабатывает задания MapReduce для определенных узлов в кластере, в идеале - узлы, которые имеют данные, или, по крайней мере, находятся в одной стойке.
TaskTracker - это программное обеспечение, которое находится в узле данных. TaskTracker может сделать это снова, что приведет к многоуровневой древовидной структуре.
Обычно да. TaskTracker может работать в одиночку, но определенно нужен datanode для работы где-то.
Шаг отображения происходит только в TaskTracker не в JobTracker?
Задачи Карта запускаются TaskTracker
Перемешать и сортировка происходит. Выполняется ли этот шаг на этапе Mapper или Reducer?
Процесс перетасовки и сортировки фактически находится между фазой карты и фазой уменьшения. Но они актуальны только для фазы снижения. Без шага по фазе уменьшения и сортировки не произойдет. Итак, мы можем сказать: у Reducer есть 3 первичные фазы: перетасовка, сортировка и уменьшение.
Выход в случайном порядке и сортировка подается на шаг редуктора?
При перемещении и сортировке фреймворк выбирает соответствующий раздел вывода всех картографов через HTTP. Ввод в редуктор - это сортированный вывод картографов.
Этап редуктора происходит только в JobTracker, а не в TaskTracker?
Уменьшение задач запускается TaskTracker.
Редукторный шаг i.e JobTracker not TaskTracker объединяет данные и дает результат клиенту/пользователю.
Уменьшение задач - это то, что должно выполняться параллельно в нескольких узлах и передавать результаты в HDFS. Вы можете прочитать выходные данные из конечных наборов данных из разных редукторов и объединить их в драйвере MapReduce, если хотите.
Только 1 редуктор используется для объединения результата?
Это будет зависеть от того, что вы хотите сделать. Но наличие одной задачи сокращения, несомненно, приведет к снижению производительности из-за отсутствия параллелизма, если у вас есть большие данные для обработки в одной задаче сокращения.
Этот вопрос стиля действительно трудно ответить на stackoverflow. Кроме того, почти каждая строка в этом неверна ... поэтому не уверен, откуда вы берете эти предположения. –