Я использую следующий простой код для загрузки файлов в hdfs.Как предотвратить поврежденный файл hadoop .gz
FileSystem hdfs = FileSystem.get(config);
hdfs.copyFromLocalFile(src, dst);
Файлы генерируются веб-сервер Java компонента и вращали и закрывается Logback в формате .gz. Я заметил, что иногда файл .gz поврежден.
> gunzip logfile.log_2013_02_20_07.close.gz
gzip: logfile.log_2013_02_20_07.close.gz: unexpected end of file
Но следующая команда не показать мне содержимое файла
> hadoop fs -text /input/2013/02/20/logfile.log_2013_02_20_07.close.gz
Влияние наличия таких файлов является довольно катастрофой - так как агрегация в течение всего дня не удается, а также несколько подчиненных узлов помечен как черный список в таком случае.
Что я могу сделать в таком случае? Может ли утилита hasoop copyFromLocalFile() испортить файл? Кто-нибудь сталкивался с подобной проблемой?
Спасибо, у меня была та же проблема на Amazon EMR и я подумал, что это проблема EMR. – Suman