Как обращаться с входными файлами .gz с Hadoop?

Пожалуйста, позвольте мне представить сценарий:Как обращаться с входными файлами .gz с Hadoop?

hadoop jar test.jar Test inputFileFolder outputFileFolder

где

test.jar Информация сортирует по ключу, время и место
inputFileFolder содержит несколько .gz файлов, каждый файл .gz составляет около 10 ГБ
outputFileFolder содержит кучу файлов .gz

Мой вопрос в том, что это лучший способ справиться с этими .gz-файлами в inputFileFolder? Спасибо!

2015-11-05 frankilee

Hadoop автоматически обнаружит и прочитает файлы .gz. Однако, поскольку .gz не является разделяемым форматом сжатия, каждый файл будет считаться одним картографом. Лучше всего использовать другой формат, такой как Snappy, или для распаковки, разделения и повторного сжатия в более мелкие файлы размером с блок.

источник

2015-11-05 16:37:58

Как обращаться с входными файлами .gz с Hadoop?

ответ

Смежные вопросы