Я использую Hadoop Archive для уменьшения количества файлов в моем кластере Hadoop, но для хранения данных я хочу сохранить свои данные как можно дольше. Тогда проблема в Hadoop Archive не уменьшает размер папки (у моей папки есть многотипный файл, как маленький, так и большой файл, а затем не подходит для использования Sequence File).Сжатие вывода инструмента Hadoop Archive
Я использовал какой-то вариант, например -D mapreduce.compress.map.output=true -D mapred.map.ouput.compress.codec=org.apache.hadoop.io.compress.GzipCodec
, но это не работа.
Кто-нибудь знает способ сжатия вывода Hadoop Archive или предложит мне как-то получить обе цели (сжать размер и уменьшить количество файлов).
Любая информация ценится. Спасибо.
Можете вдаваться в подробности? Когда используется другая работа по сокращению карты, прежде чем запустить har может уничтожить исходные структуры каталогов. – dltu