2015-05-14 2 views
4

Я новичок в hadoop, чтобы узнать подробности о резервном копировании и восстановлении. Я пересмотрел резервное копирование и восстановление оракула, поможет ли это в hadoop? С какого места я должен начинатьИнструмент и руководство по резервному копированию и восстановлению Hadoop

+1

Да, вы должны узнать о спине и процесс восстановления Hadoop. См. Сообщение, связанное с ним. http://stackoverflow.com/questions/28038121/hadoop-disaster-recovery-and-prevent-data-loss –

ответ

1

Hadoop предназначен для работы с большим кластером с 1000 узлами. Потери данных, возможно, меньше. Вы можете увеличить коэффициент репликации для репликации данных во многие узлы кластера.

См Data Replication

Для резервного копирования журнала NameNode, либо вы можете использовать secondary namenode или Hadoop High Availability

Secondary NameNode

Secondary NameNode будет взять резервную копию для журналов namnode. Если namenode не удается, вы можете восстановить журналы namenode (которые содержат информацию блока данных) из вторичного namenode.

Высокая доступность

High Availability это новая функция для запуска более одной NameNode в кластере. Один namenode будет активен, а другой - в режиме ожидания. Журнал сохраняет как наменода. Если один namenode не работает, другой активируется, и он будет обрабатывать операцию.

Но в большинстве случаев нам необходимо учитывать возможность резервного копирования и аварийного восстановления. Обратитесь к ответу @ brandon.bell.

+1

@ Kumar-Replication не предназначен для аварийного восстановления. Репликация данных полезна только в случае сбоя узла. Даже кластер высокой доступности не предназначен для аварийного восстановления. Это обеспечивает доступность вашего кластера. Когда мы имеем дело с конфиденциальными данными, мы должны заботиться о резервном копировании и восстановлении. Пожалуйста, см. Мой предыдущий пост для нескольких подходов к аварийному восстановлению. http://stackoverflow.com/questions/28038121/hadoop-disaster-recovery-and-prevent-data-loss –

+2

Всегда есть необходимость в резервных копиях. По крайней мере, вы должны быть в состоянии защитить от логической потери данных. День 1, Бобу сказано «очистить то, что нам не нужно», 5-й день кто-то спрашивает Боба, куда пошли все полезные данные. Репликации недостаточно, если она реплицирует удаления. – EightBitTony

+1

В дополнение к защите от пользовательских ошибок, логической потери данных, вам нужны резервные копии для внутреннего аудита/соблюдения, например, вы должны сохранять резервные копии на определенное количество месяцев/лет в зависимости от вашей отрасли – JStorage

4

Существует несколько вариантов резервного копирования и восстановления. Как указывает s.singh, репликация данных не является DR.

HDFS поддерживает моментальный снимок. Это можно использовать для предотвращения ошибок пользователя, восстановления файлов и т. Д. Это говорит о том, что это не DR в случае полного отказа кластера Hadoop. (http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html)

Ваш лучший выбор - сохранить резервные копии за пределами площадки. Это может быть другой кластер Hadoop, S3 и т. Д. И может выполняться с помощью distcp. (http://hadoop.apache.org/docs/stable1/distcp2.html), (https://wiki.apache.org/hadoop/AmazonS3)

Вот является Slideshare по Cloudera обсуждения DR (http://www.slideshare.net/cloudera/hadoop-backup-and-disaster-recovery)

0

Вы можете использовать приложение для синхронизации HDFS на DataTorrent для DR случаи использования для резервного копирования больших объемов данных из одного кластера HDFS в другой.

https://www.datatorrent.com/apphub/hdfs-sync/

Он использует Apache Apex в качестве обработки двигателя.

0

Начните с официального сайта документации: HdfsUserGuide

Посмотрите на ниже посты SE:

Hadoop 2.0 data write operation acknowledgement

Hadoop: HDFS File Writes & Reads

Hadoop 2.0 Name Node, Secondary Node and Checkpoint node for High Availability

How does Hadoop Namenode failover process works?

Документация страница о Recovery_Mode:

Как правило, вы будете настраивать несколько мест хранения метаданных. Затем, если одно место хранения повреждено, вы можете прочитать метаданные из одного из других мест хранения.

Однако, что вы можете сделать, если только имеющиеся места хранения повреждены? В этом случае существует специальный режим запуска NameNode , называемый режимом восстановления, который может позволить вам восстановить большую часть ваших данных.

Вы можете начать NameNode в режиме восстановления, как так: NameNode -recover

Смежные вопросы