Файлы master и slaves используются только командами shell, такими как start -all.sh, start-dfs.sh и т. Д. Эти файлы не используются какой-либо другой функцией в hadoop. С точки зрения кластеров хаоап, местоположение, где этименовые, вторичные namenode, рабочие узлы не определены этими файлами. EMR не использует эти сценарии оболочки для запуска кластера. Свойство fs.default.name или fs.defaultFS в файле core-site.xml определяет узловое имя узла. Все datanodes, которые начинаются с этой конфигурации, будут сообщать о назначении и добавляться в кластер. Точно так же узел resourcemanager определен в узле yarn-site.xml всех узлов.
Нам не нужно перезапускать какой-либо процесс в кластере для добавления новых узлов. Как только datanode встанет, он будет сообщать о назначении, и таким образом узел будет вносить вклад в HDFS. Аналогично, как только nodemanager встанет, он сообщит диспетчеру ресурсов кластера, и он внесет вклад в уровень обработки.
В EMR у нас есть 3 типа узлов.
- Мастер узел
- Основного узел
- Задача узел
Для кластера ОГО мастера-узлы будут только один. Этот узел является узлом, который имеет namenode и все основные сервисы, такие как Resourcemanager, HBase Master и т. Д.
Основной узел - это узел с памятью, а также возможность обработки, что означает, что у него есть datanode и nodemanager. Мы можем увеличить количество основных узлов, но мы не можем уменьшить число, потому что это приведет к потере данных.
Узлы задач - это узлы, которые имеют только возможности обработки. Это в основном для обслуживания переходных нагрузок. У этого есть только nodemanager. С этим узлом не связан ни один datanode. Мы можем увеличить или уменьшить количество узлов задачи.
При изменении размера кластера существующий кластер не нарушается. Такие сценарии, как start -all.sh, stop-all.sh, не вызываются в EMR. Он запускает отдельные службы и создает кластер. Таким образом, записи в главном и подчиненном файлах не рассматриваются.