Во-первых (на терминологическом фронте), я предполагаю, что вы подразумеваете создание экземпляра кластера Hadoop вместо его реализации.
- namenode управляет одним или несколькими datanodes. Индекс имен файлов для идентификаторов блоков поддерживается наменоведением в памяти и периодически сбрасывается на диск. Фактическое расположение блоков сообщается данными datanodes на узел имени, откуда он управляет назначением, переносом, репликацией и удалением блоков.
- Datanode управляет хранением блоков на физических жестких дисках. Datanode может распространять свои блоки по одному или нескольким физическим дискам (на самом деле вам предлагается использовать несколько физических дисков, а не один логический том дисков)
- Менеджер заданий (JT) управляет процессом назначения задачи (либо карту или уменьшить) до одного или нескольких контролеров задач (TT). Как правило, вы настраиваете каждый узел (физический компьютер) в своем кластере таким образом, чтобы максимально число задач, которые могут выполняться (сопоставление/уменьшение), соответствует количеству ядер (не жесткое и быстрое правило, зависит от того, как вы ожидаете использовать кластер)
- Узел обычно подразумевает физическую машину, на которой обычно запускается Task Tracker (который запускает задачи по карте/сокращению) и узел данных (хранящие/обслуживающие блоки файлов).
Спасибо за отличную информацию. – Nitin
думаю, что я, возможно, использовал слово типичное/ly ... –