Обработка небольших файлов с помощью PIG

По моему мнению, Map/Reduce работает лучше с большими файлами. (Я понимаю его из-за логики разделения и т. Д.), Мы можем поместить файлы как значения и имя файла в качестве ключа в файлах последовательности и оптимизировать.Обработка небольших файлов с помощью PIG

Теперь проблема в том, что я использую PIG для аналитики, и у нас есть около тысячи файлов, но все они в KB. Поскольку мы знаем, что лабиринт свинья преобразуется и работает как задания MR, поэтому я сомневаюсь, что задания MR будут эффективными из-за небольших файлов.

Есть ли способ, с помощью которого я могу получить контроль над обработкой небольших файлов над свиньями? Есть ли какие-либо решения?

источник

2013-09-04 java_enthu

Несколько тысяч КБ может легко поместиться в памяти. Почему вы хотите использовать Hadoop/PIG для этого? –

Тысячи файлов, каждый ~ 1000 КБ, возможно, не вписываются в память – Chaos

Pig имеет функцию объединения мелких файлов в более крупные куски: http://pig.apache.org/docs/r0.11.1/perf.html#combine-files

источник

2013-09-04 17:25:40 Ruslan

Спасибо Руслан, это то, что я искал :) –

Обработка небольших файлов с помощью PIG

ответ

Смежные вопросы