У меня есть rdd с несколькими значениями (списком) против одного ключа, я хочу отфильтровать мусор из каждого значения в ключе.карта с несколькими значениями одного ключевого pyspark
рдда имеет эти данные
((key1, [('',val1),('', val2),..]),(key2,[...)
Я хочу, чтобы отобразить его на что-то вроде этого
((key1,[val1, val2,...]), key2[...)
Я знаю, здесь требуется функция карты, но я не использовал карту для нескольких значений против ключ.
Это мое усилие для этого.
def mapper(x):
values = []
for a in x[1]:
values.append(a[1])
return(x[0], ap)
listRdd.map(mapper).collect()
, но я получаю несколько ошибок
Я сделал то же самое, но там была ошибка синтаксиса в функции отображения, спасибо за объяснение, хотя –
Вас! – eliasah