Просто интересно, как я могу сделать следующее:Scala/Spark - Агрегирование РДД
Пусть у меня есть RDD, содержащий (имя пользователя, возраст, movieBought) для многих имен пользователей и некоторых линий может иметь такое же имя и возраст, но другой фильмBought.
Как удалить дублированные строки и преобразовать их в (имя пользователя, возраст, movieBought1, movieBought2 ...)?
С наилучшими пожеланиями
Если бы я был дополнительный элемент в списке, таких как numberofmoviesbought1, то есть: (USERNAME, AGE, MOVIEBOUGHT1, NUMBERBOUGHT), как бы этот код может быть изменен, чтобы соответствовать этому параметру? Я попробовал возиться и не смог получить результат –
@KevinZ, обновил ответ – ka4eli
Так что бы мне дали: (имя пользователя, возраст, (фильм1, номер), (фильм2, номер) и т. Д.)? –