2016-02-12 3 views
0

Мне нужно найти максимальное количество сообщений, созданных человеком с определенным набором данных, где мне предоставляется идентификатор пользователя, отображаемое имя, возраст, количество комментариев, количество просмотров, дата, оценка и название каждого после.Найдите максимальные столбцы в сгруппированной строке. [using PIG]

Чтобы получить максимальное количество сообщений, я думаю, мы можем группировать по id пользователя. Теперь, после группировки, мне нужно проверить идентификатор, который больше всего не нужен. столбцов. Я не понимаю, как решить последнюю часть. Пожалуйста помоги.

+0

названия «Найти Maximum столбцов в сгруппированной строке» и ваш вопрос «найти максимальное количество сообщений, созданных человеком». Я думаю, вы отредактируете свой вопрос, затем спросите. @Swati –

+0

расскажите нам, что именно ваш вопрос? –

+0

@AnkurSingh, Они в основном указывают на одно и то же, я хочу спросить. Простите, если я не могу вас понять. Позвольте мне попробовать еще раз. Я хотел спросить, после группировки данных по id вывод будет сгруппирован по каждому идентификатору. Теперь, если я хочу найти максимум, нет. сообщений, мне нужно добавить столбцы, т. е. максимум нет. столбцов, укомплектованных любым id, вернет нам максимум no. сообщений, созданных любым человеком. –

ответ

0

Как, я понимаю, из вашего вопроса. Я даю вам ответ Соответственно.

Позволять попробовать этот код:

a = load '<path>' using PigStorage(',') as(userId,displayName,age,commentsCount,viewCount,date,score,title) 

b = group a by userId; 

c = foreach b generate group,COUNT(a.title); 

dump c; 
+0

Запустите этот код. Это правильно для вашего вопроса. Если нет, то прокомментируйте меня. @Swati Sneha –

+0

Конечно. но, почему вы считаете название? подсчет имени мог бы быть более актуальным. Не так ли? –

+0

, где вы группируете по userID, тогда ответ не будет затронут. т.е. .. описать: Bag {userId, {(),(),()}}. –