Я новичок в hadoop, чтобы узнать подробности о резервном копировании и восстановлении. Я пересмотрел резервное копирование и восстановление оракула, поможет ли это в hadoop? С какого места я должен начинатьИнструмент и руководство по резервному копированию и восстановлению Hadoop
ответ
Hadoop предназначен для работы с большим кластером с 1000 узлами. Потери данных, возможно, меньше. Вы можете увеличить коэффициент репликации для репликации данных во многие узлы кластера.
Для резервного копирования журнала NameNode, либо вы можете использовать secondary namenode или Hadoop High Availability
Secondary NameNode
Secondary NameNode будет взять резервную копию для журналов namnode. Если namenode не удается, вы можете восстановить журналы namenode (которые содержат информацию блока данных) из вторичного namenode.
Высокая доступность
High Availability это новая функция для запуска более одной NameNode в кластере. Один namenode будет активен, а другой - в режиме ожидания. Журнал сохраняет как наменода. Если один namenode не работает, другой активируется, и он будет обрабатывать операцию.
Но в большинстве случаев нам необходимо учитывать возможность резервного копирования и аварийного восстановления. Обратитесь к ответу @ brandon.bell.
@ Kumar-Replication не предназначен для аварийного восстановления. Репликация данных полезна только в случае сбоя узла. Даже кластер высокой доступности не предназначен для аварийного восстановления. Это обеспечивает доступность вашего кластера. Когда мы имеем дело с конфиденциальными данными, мы должны заботиться о резервном копировании и восстановлении. Пожалуйста, см. Мой предыдущий пост для нескольких подходов к аварийному восстановлению. http://stackoverflow.com/questions/28038121/hadoop-disaster-recovery-and-prevent-data-loss –
Всегда есть необходимость в резервных копиях. По крайней мере, вы должны быть в состоянии защитить от логической потери данных. День 1, Бобу сказано «очистить то, что нам не нужно», 5-й день кто-то спрашивает Боба, куда пошли все полезные данные. Репликации недостаточно, если она реплицирует удаления. – EightBitTony
В дополнение к защите от пользовательских ошибок, логической потери данных, вам нужны резервные копии для внутреннего аудита/соблюдения, например, вы должны сохранять резервные копии на определенное количество месяцев/лет в зависимости от вашей отрасли – JStorage
Существует несколько вариантов резервного копирования и восстановления. Как указывает s.singh, репликация данных не является DR.
HDFS поддерживает моментальный снимок. Это можно использовать для предотвращения ошибок пользователя, восстановления файлов и т. Д. Это говорит о том, что это не DR в случае полного отказа кластера Hadoop. (http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html)
Ваш лучший выбор - сохранить резервные копии за пределами площадки. Это может быть другой кластер Hadoop, S3 и т. Д. И может выполняться с помощью distcp. (http://hadoop.apache.org/docs/stable1/distcp2.html), (https://wiki.apache.org/hadoop/AmazonS3)
Вот является Slideshare по Cloudera обсуждения DR (http://www.slideshare.net/cloudera/hadoop-backup-and-disaster-recovery)
Вы можете использовать приложение для синхронизации HDFS на DataTorrent для DR случаи использования для резервного копирования больших объемов данных из одного кластера HDFS в другой.
https://www.datatorrent.com/apphub/hdfs-sync/
Он использует Apache Apex в качестве обработки двигателя.
Начните с официального сайта документации: HdfsUserGuide
Посмотрите на ниже посты SE:
Hadoop 2.0 data write operation acknowledgement
Hadoop: HDFS File Writes & Reads
Hadoop 2.0 Name Node, Secondary Node and Checkpoint node for High Availability
How does Hadoop Namenode failover process works?
Документация страница о Recovery_Mode:
Как правило, вы будете настраивать несколько мест хранения метаданных. Затем, если одно место хранения повреждено, вы можете прочитать метаданные из одного из других мест хранения.
Однако, что вы можете сделать, если только имеющиеся места хранения повреждены? В этом случае существует специальный режим запуска NameNode , называемый режимом восстановления, который может позволить вам восстановить большую часть ваших данных.
Вы можете начать NameNode в режиме восстановления, как так: NameNode -recover
- 1. Учебник по резервному копированию SQL Server 2008
- 2. Рекомендации по резервному копированию базы данных
- 3. Нужна помощь по резервному копированию css
- 4. Ошибка при просмотре действий по резервному копированию
- 5. Что эквивалентно автоматизированному резервному копированию и восстановлению управляемого SQL для хранилища данных для приложений?
- 6. Предложения по резервному копированию php-сайта и mysql db
- 7. Обновление SQL Server 2005-> 2008: отсоединить/присоединить к резервному копированию/восстановлению?
- 8. rsync удаленный доступ к локальному автоматическому резервному копированию
- 9. База данных по экспорту и восстановлению
- 10. cudaMallocPitch 'Недопустимые аргументы ", несмотря на руководство по копированию?
- 11. Есть ли окончательное руководство по подключению Кассандры и Hadoop?
- 12. Запланировать задачу по резервному копированию удаленной базы данных на моей локальной системе
- 13. Akka Соответствие сбоям и восстановлению
- 14. Рекомендации по восстановлению баз данных
- 15. Справочное руководство по кодированию и рекомендациям VHDL
- 16. Руководство по glib и многопоточности
- 17. Руководство по установке и советы
- 18. Альтернативы копированию конструкторов и заданий?
- 19. Справочное руководство и руководство
- 20. Не удалось выполнить работу по восстановлению базы данных и журналов
- 21. Настройка весенней безопасности для авторизованных и несанкционированных услуг по восстановлению
- 22. Heroku Подключиться к резервному копированию данных Salesforce в базу данных Postgres
- 23. Сравнение строк Excel по нескольким столам и копированию
- 24. Случайная потеря всего кода - помощь по восстановлению
- 25. Нужна помощь по восстановлению элементов Sitecore
- 26. Нужна помощь по восстановлению количества предметов покупки
- 27. NHibernate 3 и руководство по настройке MySQL
- 28. Руководство по интеграции WiX, TeamCity и NuGet
- 29. Неопубликованное руководство по подключению и контенту
- 30. Руководство по решению и структуре проекта
Да, вы должны узнать о спине и процесс восстановления Hadoop. См. Сообщение, связанное с ним. http://stackoverflow.com/questions/28038121/hadoop-disaster-recovery-and-prevent-data-loss –