У меня есть сценарий свиньи, которая делает группировку и подсчет различных клиентов, как показано нижесвинья одна группа по значению на редуктор
by_customer = GROUP customer BY (start_date, spc);
cust_cnt = FOREACH by_customer {
cust = DISTINCT customer.cid;
GENERATE FLATTEN(group), COUNT(cust);
};
Вопрос заключается в том, что последний редукторе виснет или не из-за проблемы с памятью. Я вижу, что данные, распределенные между редукторами, сильно искажены. Есть ли способ распределить выход группы так, чтобы каждый редуктор получал только один сгруппированный пакет.
Вы пытались использовать PARALLEL? – mbaxi