2016-07-10 7 views
3

Мне нужно скопировать каталог из одного кластера в другой с аналогичной HDFS (оба являются кластерами MAPR).Ошибка отказа DistCp между двумя удаленными кластерами

Я планирую использовать API-интерфейс DistCp. Но я хотел избежать дублирования копий файлов в каталоге. Я хотел знать, являются ли эти операции отказоустойчивыми? I. Если файлы не скопированы полностью из-за потери соединения, если DistCp снова инициирует копии для правильного копирования файла?

+0

PLS ответит на ответы. так что больше пользователей получит мотивацию, чтобы дать быстрые ответы –

ответ

1

distcp использует MapReduce для осуществления его распространения, обработки ошибок и восстановления, а также отчетности.

Пожалуйста, см Update and Overwrite

Вы можете использовать -overwrite вариант, чтобы избежать дубликатов Кроме того, вы можете проверить функцию обновления, а также. Если сетевое соединение не произошло, его соединение восстанавливается, то вы можете повторно начать с перезаписью опцией

Смотрите примеры -update и -overwrite, как указано в выше направляющей линии.

+0

@ user2021147 был ли мой ответ полезным? если да, то голосование по PLS «принято владельцем» спасибо –

0

Вот ссылка на реорганизованную distcp: https://hadoop.apache.org/docs/r2.7.2/hadoop-distcp/DistCp.html

Как «@RamPrasad G» уже упоминались, я предполагаю, что у вас нет другого выбора, кроме повторить distcp в случае сбоя в сети.

Некоторые хорошие читает:

отказы distcp сети Hadoop с WebHDFS

http://www.ghostar.org/2015/08/hadoop-distcp-network-failures-with-webhdfs/

Distcp между двумя HA Cluster

http://henning.kropponline.de/2015/03/15/distcp-two-ha-cluster/

Передача данных в/из Altiscale через S3 с помощью DistCp

https://documentation.altiscale.com/transferring-data-using-distcp Эта страница содержит ссылку на сценарий оболочки с повторной попытки, который может быть полезным для вас.

Примечание: Благодаря оригинальным авторам.

Смежные вопросы