2015-09-24 6 views
4

Из того, что я понимаю, для высокой доступности в hadoop нам нужен один узел имен и один резервный узел, общее сетевое пространство хранения (разделенное между двумя узлами имен), не менее 2 узлов данных для запуска скопированного кластера.Минимальные системные требования для работы кластера Hadoop с высокой доступностью

  1. Можем ли мы запустить сервер dataNode на том же компьютере, на котором запущен узел имен.

  2. Может ли пряжа работать на машине, на которой запущен сервер имен или данных.

Просьба предложить, если мне не хватает каких-либо других услуг, необходимых для создания среды hadoop.

Какими должны быть системные требования для узла имени, поскольку он обрабатывает только метаданные (интенсивность ввода-вывода CPU Intensive). Данные, которые мы хрустем, в основном связаны с интенсивностью ввода-вывода.

ответ

3

Для Hadoop HA - вам нужно как минимум две отдельные машины, которые могут запускать Namenode и Namenode HA. Таким образом, в теории вы можете иметь Hadoop HA-кластер с двумя машинами. Но это практически не полезно.

Чтобы ответить на другой вопрос: 1. Вы можете запустить службу DataNode на машине, которая запускает службу Namenode. Это общий сценарий в кластере PoC, где у вас небольшой кластер (примерно 3-7node). ПРИМЕЧАНИЕ. Вы должны использовать специализированные машины для мастер-сервисов, таких как Namenode, в составе лучших практик.

  1. Да, вы можете запускать службы YARN на машине, которая запускает Datanode или Namenode или и то, и другое. На самом деле, в кластере с одним узлом все службы работают на одной машине. В принципе, все эти службы, такие как Namenode, Datanode, YARN, являются Java-процессом, поэтому они запускаются на отдельных JVM. Вы можете разместить все эти процессы на одном и том же узле или в другом узле согласно пожеланию.

NameNode в основном нуждается в оперативной памяти, которая зависит от размера данных кластера и количество блоков, которые вы имеете в кластере или ожидается have.Generally, ваши запросы (ЦП или ввода/вывода интенсивно) не влияют на NameNode системные требования.

Подробнее об услуге смотрите:

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html

+0

Сколько узлов в кластере обычно работают пряжу? Если только один узел данных запускает пряжу, то что произойдет, если этот узел данных опустится? – Prabhath

+0

datanode - отдельный процесс JVM, чем YARN. Кроме того, YARN представляет собой набор различных процессов JVM, таких как Resourcemanager (prcess управляет ресурсами по всему миру для кластера), мастер приложений (управляет одним приложением), Nodemanager (подчиненный процесс, который фактически выполняет вычисления). Если у вас есть весь процесс YARN на одном компьютере, и эта машина опускается, тогда вы не сможете запускать какую-либо работу на кластере. У вас снова работают задания YARN. Если машина, на которой размещается YARN-процесс, также запускает datanode, тогда она не будет влиять на ваше задание, так как Hadoop имеет по умолчанию 3 коэффициента репликации и запускает задачу на узле с данными. – pradeep

+0

Если у вас есть только один узел и процесс datanode, то вы не сможете получить доступ к данным в кластере. – pradeep