Например, я написал файл в HDFS с использованием коэффициента репликации 2. У узла, на котором я писал, теперь есть все блоки файла. Другие копии всех блоков файла разбросаны по всем остальным узлам кластера. Это стандартная политика HDFS. Что именно происходит, если я понижаю коэффициент репликации файла до 1? Как HDFS решает, какие блоки удаляются из узлов? Надеюсь, он пытается удалить блоки из узлов, которые имеют наибольшее количество блоков файла?Как hdfs удаляет перереплируемые блоки
Почему я спрашиваю - если это так, это имеет смысл - это облегчит обработку файла. Поскольку, если имеется только одна копия всех блоков, и все блоки расположены на одном узле, тогда было бы сложнее обработать файл, используя уменьшение карты из-за передачи данных другим узлам кластера.
Было бы здорово, если бы вы также предоставили источник информации (например, документы, или, может быть, вы вносите вклад в HDFS и знаете кодовую базу). –
Я нашел эту информацию на http://www.aosabook.org/en/hdfs.html – vanekjar
Спасибо. Похоже на отличное письмо. –