2015-05-26 3 views
0

Я использовал hadoop в течение некоторого времени. Когда я настраивал hadoop, я пришел через свойство, называемое dfs.replication. Но я не могу понять, как это работает. Пожалуйста, помогите мне.Фактор репликации Hadoop

ответ

1

Одним из преимуществ Hadoop является то, что он позволяет хранить надежно большие файлы в вашем кластере, поэтому даже если один файл поврежден, вы не потеряете данные. Это работает с репликацией: каждый файл разделяется на блоки данных (размер которых настраивается через свойство dfs.blocksize), которые хранятся в разных узлах вашего кластера, и каждый блок будет реплицироваться X раз, будучи X, номером, который вы написали в dfs.replication. Поэтому, если один из ваших блоков данных поврежден, где-то в вашем кластере будут другие копии, поэтому вы не потеряете данные.

Если вы установите его на 1, то он не будет отказоустойчивым, так как это означает, что на блок имеется только одна копия. Однако, если вы установите его на 2, но один блок будет потерян, появится другая его копия.

0

Репликация по умолчанию блока. Фактическое количество повторений может быть указано при создании файла. По умолчанию используется, если репликация не указана во время создания. Значение по умолчанию равно 3, что означает, что вы разместите дамп в местоположении HDFS, там будет 3 повтора, так как структура распадет файл в набор блоков (64 МБ или 128 МБ), а затем эти блоки будет реплицироваться через узлы кластера.

В зависимости от необходимости и использования данных и их размера репликация может быть установлена.

Смежные вопросы