Я новичок в Python, а также в Spark. У меня есть пара RDD, содержащая (ключ, список), но некоторые из значений дублируются. RDD имеет форму (zipCode, улицы) Я хочу пару RDD, которая не содержит дубликатов. Я пытаюсь достичь этого с помощью python. Может ли кто-нибудь помочь в этом.Удаление дубликатов из значений Spark RDDPair
(ZipCode, улицы)
streetsGroupedByZipCode = zipCodeStreetsPairTuple.groupByKey()
dayGroupedHosts.take(2)
[(123456, <pyspark.resultiterable.ResultIterable at 0xb00518ec>),
(523900, <pyspark.resultiterable.ResultIterable at 0xb005192c>)]
zipToUniqueStreets = streetsGroupedByZipCode.map(lambda (x,y):(x,y.distinct()))
Над одной не работает
это скорее вопрос кортежей, как они трактуются здесь: http://stackoverflow.com/questions/3912753/scala-remove-duplicates-in-list-of- объекты – Seb