2013-09-04 2 views
0

По моему мнению, Map/Reduce работает лучше с большими файлами. (Я понимаю его из-за логики разделения и т. Д.), Мы можем поместить файлы как значения и имя файла в качестве ключа в файлах последовательности и оптимизировать.Обработка небольших файлов с помощью PIG

Теперь проблема в том, что я использую PIG для аналитики, и у нас есть около тысячи файлов, но все они в KB. Поскольку мы знаем, что лабиринт свинья преобразуется и работает как задания MR, поэтому я сомневаюсь, что задания MR будут эффективными из-за небольших файлов.

Есть ли способ, с помощью которого я могу получить контроль над обработкой небольших файлов над свиньями? Есть ли какие-либо решения?

+1

Несколько тысяч КБ может легко поместиться в памяти. Почему вы хотите использовать Hadoop/PIG для этого? –

+2

Тысячи файлов, каждый ~ 1000 КБ, возможно, не вписываются в память – Chaos

ответ

Смежные вопросы