Почему записи, содержащие несколько стоек, являются дорогостоящими в HDFS?

Это содержимое было представлено на HDFS documentation. Я не могу понять причину последней строки. По словам меня, в случае большего количества стеллажей мы можем писать параллельно на каждой стойке. что уменьшит общее время записи. Даже в нем говорится, что стоимость записи увеличивается, поскольку нам нужно перенести данные на несколько стоек. Но в любом случае мы будем передавать данные в стойки.Почему записи, содержащие несколько стоек, являются дорогостоящими в HDFS?

Пожалуйста, объясните мне, где я ошибаюсь?

http://hadoop.apache.org/docs/stable/hdfs_design.html

NameNode определяет идентификатор стойки каждый DataNode принадлежит с помощью процесса, изложенного в Hadoop Rack осведомленности. Простая, но неоптимальная политика заключается в размещении реплик на уникальных стойках. Это предотвращает потерю данных при сбое всей стойки и позволяет использовать полосу пропускания с нескольких стоек при чтении данных. Эта политика равномерно распределяет реплики в кластере, который упрощает балансировку нагрузки при сбое компонента. Однако эта политика увеличивает стоимость записи, поскольку запись требует переноса блоков на несколько стоек.

источник

2013-09-20 Abhishek Gupta

Если вы хотите реплицировать данные на другую стойку для обеспечения отказоустойчивости (в случае отсоединения полной стойки) вам необходимо перенести данные на другую стойку, которая, очевидно, медленнее, чем локальная или локальная запись. –

Утверждение, что вы выделены жирным шрифтом означает, передать стоимость сетевых хмелем. Существует неявное предположение, что каждый шкаф имеет верхнюю стойку, которая обеспечивает связь исключительно с серверами в этой стойке.

Если вы должны принять «простую» политику размещения каждой реплики на уникальной стойке, то вы вызываете сетевую копию 2+ hop для каждого блока в этой схеме. Это «неоптимальный» по сравнению с рекомендуемой политикой одной реплики с локальным реестром и другой репликой, отличной от стойки, где есть только одна копия с 2-мя хопами и одна 1-х копия.

Опять же, эта рекомендация сохраняется только в сетевой топологии с верхняя часть переустановки стойки. Если бы у вас была какая-то другая, более плоская топология сети, это было бы неважно.

источник

2013-09-20 13:47:26 jtravaglini

Почему записи, содержащие несколько стоек, являются дорогостоящими в HDFS?

ответ

Смежные вопросы