Это содержимое было представлено на HDFS documentation. Я не могу понять причину последней строки. По словам меня, в случае большего количества стеллажей мы можем писать параллельно на каждой стойке. что уменьшит общее время записи. Даже в нем говорится, что стоимость записи увеличивается, поскольку нам нужно перенести данные на несколько стоек. Но в любом случае мы будем передавать данные в стойки.Почему записи, содержащие несколько стоек, являются дорогостоящими в HDFS?
Пожалуйста, объясните мне, где я ошибаюсь?
http://hadoop.apache.org/docs/stable/hdfs_design.html
NameNode определяет идентификатор стойки каждый DataNode принадлежит с помощью процесса, изложенного в Hadoop Rack осведомленности. Простая, но неоптимальная политика заключается в размещении реплик на уникальных стойках. Это предотвращает потерю данных при сбое всей стойки и позволяет использовать полосу пропускания с нескольких стоек при чтении данных. Эта политика равномерно распределяет реплики в кластере, который упрощает балансировку нагрузки при сбое компонента. Однако эта политика увеличивает стоимость записи, поскольку запись требует переноса блоков на несколько стоек.
Если вы хотите реплицировать данные на другую стойку для обеспечения отказоустойчивости (в случае отсоединения полной стойки) вам необходимо перенести данные на другую стойку, которая, очевидно, медленнее, чем локальная или локальная запись. –