2015-06-27 5 views
0

Я новичок в Hadoop. Пожалуйста, поправьте меня, если я прошу глупости и помогу решить эту проблему :).Hadoop multi node cluster

Я установил и настроил кластер с двумя узлами (пряжа).

  • Мастер узел: 2TB HDD, 4GB RAM
  • Подчиненный узел: 500GB HDD, 4GB RAM

DataNode: Мастер узел только (не сохраняя репликацию данных в ведомом узле)

Карта/Уменьшить: Главный узел & Ведомый узел.

Из данных 10TB я загрузил 2TB на главный узел (узел данных). Я использую подчиненные узлы только для Map/Reduce (для использования 100% CPU подчиненного узла для выполнения запросов).

Мои вопросы:

  1. Если добавить новый 2TB HDD мастер узлу, и я хочу, чтобы загрузить 2TB больше мастер-узел, как я могу использовать как HDD (данные в Старом HDD и Новый HDD в мастер)? Есть ли способ предоставить несколько путей к жесткому диску в hdfs-site.xml?

  2. Нужно ли добавить 4 ТБ жесткого диска в подчиненный узел (со всеми данными в главном), чтобы использовать 100% процессора подчиненного устройства? Или ведомый может получить доступ к данным от мастера и выполнить задания Map/Reduce?

  3. Если я добавлю 4 ТБ к подчиненному устройству и загружаю данные в хаос. Будет ли это делать репликацию в master (duplicates)? Могу ли я получить доступ ко всем данным на основном жестком диске основного и основного жесткого диска ведомого? Выполняют ли запросы с использованием 100% CPU обоих узлов, если я это делаю?

  4. В целом, если у меня есть данные 10TB. Каков правильный способ настройки Hadoop двух узлов кластера? какую спецификацию (для мастера и datanode) следует использовать для быстрого запуска запросов на улей?

Я застрял. Мне действительно нужны ваши предложения и помощь.

Спасибо за тонну.

ответ

1

Вы можете найти ответы ниже:

  1. обеспечивают разделенный запятыми список каталогов в HDFS-site.xml. источник https://www.safaribooksonline.com/library/view/hadoop-mapreduce-cookbook/9781849517287/ch02s05.html
  2. Нет. Вам не нужно добавлять HDD на slave для использования 100% -ного CPU. В текущей конфигурации менеджер узлов, работающий на подчиненном устройстве, будет считывать данные с узла данных, работающего на главном (через сеть). Это неэффективно с точки зрения местоположения данных, но это не влияет на пропускную способность обработки. Это добавит дополнительную задержку из-за сетевой передачи.
  3. №. Коэффициент репликации (количество копий, которые необходимо сохранить) не зависит от количества узлов данных. Коэффициент репликации по умолчанию можно изменить hdfs-site.xml, используя свойство dfs.replication. Вы также можете настроить это для каждого файла.
  4. Вам понадобится не менее 10 ГБ хранилища через ваш кластер (весь объединенный узел данных с коэффициентом репликации 1).Для производственной системы я бы рекомендовал фактор репликации 3 (для обработки отказа узла), то есть 10 * 3 = 30 ГБ хранения по меньшей мере на 3 узла. Так как 10 Гбайт очень мал в терминах Hadoop, у них есть 3 узла, каждый из которых имеет 2 или 4 ядра процессора и 4-8 ГБ памяти. Конфигурируйте это как: node1: имя узла + узел данных + менеджер узлов, узел2: диспетчер ресурсов + узел данных + менеджер узлов, узел3: узел данных + менеджер узлов.
Смежные вопросы