2016-11-27 2 views

ответ

1

Количество Namenode и DataNode определяется вашими бизнес-требованиями. Вы не устанавливаете их, программируя.

Если вам нужна масштабируемость, вам необходимо изучить концепции федерации HDFS.

Обратитесь к этой документации page для получения более подробной информации о Федерации.

Чтобы масштабировать службу имен по горизонтали, федерация использует несколько независимых Namenodes/namespaces. Namenodes объединяются; Namenodes являются независимыми и не требуют координации друг с другом. Datanodes используются как общее хранилище для блоков всеми Namenodes.

enter image description here

Количество картографов решается входными расколов.

Вы можете установить количество редукторов программно, но фреза не обязана выполнять ваши рекомендации.

Поэтому лучше принять решение Hadoop принять решение о количестве Mappers и Reducers.

Посмотрите на этот вопрос, связанные SE:

How hadoop decides how many nodes will do map and reduce tasks

EDIT:

Hadoop размер кластера: 1. Определить requriements данных от потребностей бизнеса 2. Определение коэффициента replicaiton для ваших данных 3. Рассчитайте коэффициент exlposion данных в ближайшие годы 4. Как только у вас есть данные выше, вы можете подумать о идеальном размере кластера и аппаратном обеспечении запросы для Namenode и Datanode.

См. Этот cloudera article для более подробной информации.

Правильный уровень параллелизма для карт, по-видимому, составляет около 10-100 карт на узел, здесь узел NameNode или DataNode?

это Datanode.

, когда речь идет о Картостроители некоторые говорят столько же, сколько разделений, другой говорит то же число блоков, в то время как другие говорят, что определяется рамками

было принято решение рамках Hadoop в зависимости от количества входных расщепляется.

Посмотрите на соответствующий SE вопрос:

How does Hadoop perform input splits?

+0

Спасибо за ответ, я понимаю, что NameNodes может быть установлен с помощью configration, картографов и восстановителей определяются рамки Hadoop. Как насчет DataNodes, как установить их число? Также во второй ссылке вы дали ее мне упоминается: «Правильный уровень параллелизма для карт, по-видимому, составляет около 10-100 карт на узел», здесь означает NameNode или DataNode? И когда речь идет о Мапперах, некоторые говорят о том же числе, что и расколы, другое говорит о том же количестве блоков, в то время как другие говорят, что оно определяется каркасом и может не давать точное количество разделов или блоков, так что это правильно сверху? –

Смежные вопросы