2015-11-05 7 views
0

Пожалуйста, позвольте мне представить сценарий:Как обращаться с входными файлами .gz с Hadoop?

hadoop jar test.jar Test inputFileFolder outputFileFolder

где

  • test.jar Информация сортирует по ключу, время и место
  • inputFileFolder содержит несколько .gz файлов, каждый файл .gz составляет около 10 ГБ
  • outputFileFolder содержит кучу файлов .gz

Мой вопрос в том, что это лучший способ справиться с этими .gz-файлами в inputFileFolder? Спасибо!

ответ

1

Hadoop автоматически обнаружит и прочитает файлы .gz. Однако, поскольку .gz не является разделяемым форматом сжатия, каждый файл будет считаться одним картографом. Лучше всего использовать другой формат, такой как Snappy, или для распаковки, разделения и повторного сжатия в более мелкие файлы размером с блок.

Смежные вопросы