Из того, что я понимаю, для высокой доступности в hadoop нам нужен один узел имен и один резервный узел, общее сетевое пространство хранения (разделенное между двумя узлами имен), не менее 2 узлов данных для запуска скопированного кластера.Минимальные системные требования для работы кластера Hadoop с высокой доступностью
Можем ли мы запустить сервер dataNode на том же компьютере, на котором запущен узел имен.
Может ли пряжа работать на машине, на которой запущен сервер имен или данных.
Просьба предложить, если мне не хватает каких-либо других услуг, необходимых для создания среды hadoop.
Какими должны быть системные требования для узла имени, поскольку он обрабатывает только метаданные (интенсивность ввода-вывода CPU Intensive). Данные, которые мы хрустем, в основном связаны с интенсивностью ввода-вывода.
Сколько узлов в кластере обычно работают пряжу? Если только один узел данных запускает пряжу, то что произойдет, если этот узел данных опустится? – Prabhath
datanode - отдельный процесс JVM, чем YARN. Кроме того, YARN представляет собой набор различных процессов JVM, таких как Resourcemanager (prcess управляет ресурсами по всему миру для кластера), мастер приложений (управляет одним приложением), Nodemanager (подчиненный процесс, который фактически выполняет вычисления). Если у вас есть весь процесс YARN на одном компьютере, и эта машина опускается, тогда вы не сможете запускать какую-либо работу на кластере. У вас снова работают задания YARN. Если машина, на которой размещается YARN-процесс, также запускает datanode, тогда она не будет влиять на ваше задание, так как Hadoop имеет по умолчанию 3 коэффициента репликации и запускает задачу на узле с данными. – pradeep
Если у вас есть только один узел и процесс datanode, то вы не сможете получить доступ к данным в кластере. – pradeep