2016-11-16 3 views
0

так я иметь следующую структуру данных в свинью после описания:Как извлечь отличную от сумки кортежей?

-------------------------------------------------------------------------------------------------------------------------------------------------------- 
| summed_hours_and_miles_by_driver  | group:int  | :bag{:tuple(driver_name:chararray)}    | total_hours:long  | total_miles:long  | 
-------------------------------------------------------------------------------------------------------------------------------------------------------- 
|          | 27   | {(Mark Lochbihler), ..., (Mark Lochbihler)}  | 220     | 11006    | 
-------------------------------------------------------------------------------------------------------------------------------------------------------- 

Идея заключается в том, что имя драйвера (Mark Lochbihler) дублируется несколько раз в сумке кортежей. Как я могу ограничить его одним именем там что-то вроде DISTINCT в SQL?

ответ

0

Использование Distinct, принимая ваше отношение что-то вроде этого

summed_hours_and_miles_by_driver = FOREACH grp GENERATE 
             group, 
             org.apache.pig.builtin.Distinct(A.driver_name), 
             total_hours, 
             total_miles; 
Смежные вопросы