Оптимизация для hadoop с большим количеством мелких файлов

Мне нужно загрузить много файлов на моем кластере (+/- 500 000), и это занимает очень много времени. Каждый файл находится в формате gzip и занимает 80 Мб места.Оптимизация для hadoop с большим количеством мелких файлов

На данный момент я использую время цикл для загрузки моего файла с путы, но у вас есть, может быть, лучшее решение ...

Спасибо за вашу порцию.

источник

2013-10-10 KelevraZero

Может быть, вы можете посмотреть в DataLoader из PivotalHD, который загружает данные с использованием карты рабочих мест параллельно, которая быстрее. Проверьте эту ссылку PivotalHD Dataloader.

источник

2013-10-10 13:56:36 Binary01

Да, ваша ссылка довольно интересная. Спасибо вам! – KelevraZero

Трудно понять проблему так, как вы ее объясните.

HDFS поддерживает сжатие gzip без разделения. Поскольку ваши файлы ~ 80 МБ каждый, тогда разделение не является большой проблемой для вас, просто убедитесь, что размер блока составляет 128 МБ.

Что касается загрузки файлов, почему бы вам не загрузить весь каталог с помощью команды -put?

hadoop fs -put local/path/to/dir path/in/hdfs

будет делать трюк.

источник

2013-10-10 12:37:01

Спасибо, но у меня нет проблем с обработкой файла gzip. О команде put, я не могу, потому что мне нужно загрузить juste образец моего каталога, и я превышу пределы ввода, когда я пытаюсь использовать hasoop fs -put /path/*XXX.gz/path. – KelevraZero

find/path -name "* XXX.gz" -print0 | xargs -0 -i hadoop fs -put {}/path –

Вы можете использовать BuildSequenceFileFromDir из Binarypig присутствующих на https://github.com/endgameinc/binarypig

источник

2013-10-10 13:20:38

Оптимизация для hadoop с большим количеством мелких файлов

ответ

Смежные вопросы