Я новичок в Hadoop. Пожалуйста, поправьте меня, если я прошу глупости и помогу решить эту проблему :).Hadoop multi node cluster
Я установил и настроил кластер с двумя узлами (пряжа).
- Мастер узел: 2TB HDD, 4GB RAM
- Подчиненный узел: 500GB HDD, 4GB RAM
DataNode: Мастер узел только (не сохраняя репликацию данных в ведомом узле)
Карта/Уменьшить: Главный узел & Ведомый узел.
Из данных 10TB я загрузил 2TB на главный узел (узел данных). Я использую подчиненные узлы только для Map/Reduce (для использования 100% CPU подчиненного узла для выполнения запросов).
Мои вопросы:
Если добавить новый 2TB HDD мастер узлу, и я хочу, чтобы загрузить 2TB больше мастер-узел, как я могу использовать как HDD (данные в Старом HDD и Новый HDD в мастер)? Есть ли способ предоставить несколько путей к жесткому диску в hdfs-site.xml?
Нужно ли добавить 4 ТБ жесткого диска в подчиненный узел (со всеми данными в главном), чтобы использовать 100% процессора подчиненного устройства? Или ведомый может получить доступ к данным от мастера и выполнить задания Map/Reduce?
Если я добавлю 4 ТБ к подчиненному устройству и загружаю данные в хаос. Будет ли это делать репликацию в master (duplicates)? Могу ли я получить доступ ко всем данным на основном жестком диске основного и основного жесткого диска ведомого? Выполняют ли запросы с использованием 100% CPU обоих узлов, если я это делаю?
В целом, если у меня есть данные 10TB. Каков правильный способ настройки Hadoop двух узлов кластера? какую спецификацию (для мастера и datanode) следует использовать для быстрого запуска запросов на улей?
Я застрял. Мне действительно нужны ваши предложения и помощь.
Спасибо за тонну.