В настоящее время я работаю с приблизительно 19 гигабайтом данных журнала,повышение производительности при наличии большого количества небольших входных файлов с помощью Pig Latin
и они очень отделено так, чтобы превышать количество входных файлов 145258 (свинья стат) ,
Между выполнением приложения и запуск MapReduce работу в веб-интерфейсе,
огромное количество времени тратится на готовьтесь (около 3 часов?), А затем начинает работу MapReduce.
, а также сама трансформировать работу (через сценарий свиньи) довольно медленно, это занимает около часа.
Логика mapreduce не такая сложная, как группа по действию.
У меня есть 3 datanodes и 1 namenode, 1 вторичный namenode.
Как я могу оптимизировать конфигурацию для улучшения производительности mapreduce?
Включили ли вы 'pig.splitCombination'? Вы использовали 'PigStorage'? – zsxwing
145258 - это много файлов, вы сохраняете их все или удаляете после обработки? Если вы их сохраните, то ваша самая большая проблема будет памятью для NameNode. Попробуйте объединить их в один большой файл, и он решит большинство ваших проблем. – alexeipab
Спасибо за все комментарии, ведь вы, ребята, предлагаете мне объединять файлы с большими размерами. Но реальная проблема заключается в том, что сотни терабайт данных, которые я должен обрабатывать, так или иначе хранятся таким образом (многие небольшие файлы) и около 500 гигабайт, хранятся каждый день. В этом случае размещение больших файлов - еще одна большая проблема ... –