Как hdfs удаляет перереплируемые блоки

Например, я написал файл в HDFS с использованием коэффициента репликации 2. У узла, на котором я писал, теперь есть все блоки файла. Другие копии всех блоков файла разбросаны по всем остальным узлам кластера. Это стандартная политика HDFS. Что именно происходит, если я понижаю коэффициент репликации файла до 1? Как HDFS решает, какие блоки удаляются из узлов? Надеюсь, он пытается удалить блоки из узлов, которые имеют наибольшее количество блоков файла?Как hdfs удаляет перереплируемые блоки

Почему я спрашиваю - если это так, это имеет смысл - это облегчит обработку файла. Поскольку, если имеется только одна копия всех блоков, и все блоки расположены на одном узле, тогда было бы сложнее обработать файл, используя уменьшение карты из-за передачи данных другим узлам кластера.

источник

2015-06-25 Mikhail Golubtsov

Когда блок становится over-replicated, name node выбирает реплику для удаления. name node предпочитает не уменьшать количество стоек, на которых размещаются реплики, и, во-вторых, предпочитает удалять реплику из data node с наименьшим количеством доступного дискового пространства. Это может помочь перебалансировать нагрузку по кластеру.

Источник: The Architecture of Open Source Applications

источник

2015-06-25 14:36:58 vanekjar

Было бы здорово, если бы вы также предоставили источник информации (например, документы, или, может быть, вы вносите вклад в HDFS и знаете кодовую базу). –

Я нашел эту информацию на http://www.aosabook.org/en/hdfs.html – vanekjar

Спасибо. Похоже на отличное письмо. –

Сверхреплицируемые блоки случайным образом удаляются из разных узлов с помощью HDFS и перебалансируются, что означает, что они не просто удаляются из текущего узла.

источник

2015-06-25 10:13:03

Я знаю, что HDFS имеет команду «восстановить баланс» в смысле использования узла балансирующего с точки зрения узлов, но я ничего не знаю о файле перебалансировании Да, HDFS пытается поставить блоки файлов на разных узлах во время записи или увеличение коэффициента репликации, но это не мой вопрос. Не могли бы вы связать какую-либо документацию? –

http://www.swiss-scalability.com/2013/08/hadoop-hdfs-balancer-explained.html; https://hadooptutorial.info/hdfs-rebalance/; http://www.cloudera.com/content/cloudera/en/documentation/cdh4/latest/CDH4-Installation-Guide/cdh4ig_balancer.html; Пожалуйста, обратитесь к этому вопросу. Надеюсь, это поможет. –

Это то, что я сказал - перебалансировка - это только перебалансировка общих блоков относительно общей площади, используемой на datanodes, задействованных стеллажах. Речь идет не о отдельных файлах, касающихся того, сколько блоков файла находится на каждом datanode, как я спросил в моем вопросе. –

Как hdfs удаляет перереплируемые блоки

ответ

Смежные вопросы