2015-03-16 3 views
0

Когда я запускаю запрос с использованием tez, количество выходных файлов очень велико. У меня есть 4-5 ГБ данных, каждый из которых имеет 46 МБ или 16 МБ. Я хочу иметь только 2-3 файла в качестве выходных файлов.Хранилище Google cloud - выходные файлы Tez

Мое расположение выходных файлов будет облачным хранилищем Google. Как объединить файлы?

set mapred.reduce.tasks = 1; 
set hive.merge.mapfiles = true; 
set hive.mergejob.maponly = true; 
set hive.merge.mapredfiles=true; 

Я установил эти параметры. И я написал запись перезаписи, чтобы перезаписать данные в том же месте. Не использовать. Пожалуйста помоги.

ответ

0

Я был в состоянии сделать это. Раньше, когда я это делал, это была только работа с картой. Теперь я немного изменил запрос на использование редуктора (добавлен дистрибутив). Тогда, если я говорю «количество редуктора = 1», он работает. Но он не работает для других параметров, которые должны работать только для карты.