Я пытался заставить его работать какое-то время, но каждый раз терпел неудачу. У меня есть 2 файла. Один имеет список имен:PySpark ReduceByKey
Name1
Name2
Name3
Name4
Другой список значений, связанные с именами на каждый день в течение года в течение нескольких лет:
['0.1,0.2,0.3,0.4',
'0.5,0.6,0.7,0.8',
'10,1000,0.2,5000'
...]
Цель состоит в том, чтобы иметь выход как:
Name1: [0.1,0.5,10]
Name2: [0.2,0.6,1000]
Name3:[0.3,0.7,0.2]
Name4:[0.4,0.8,5000]
И затем график графика для каждого. Я написал картограф, который создает список кортежей, который производит следующий вывод (это объект РДДА):
[[('Name1', [0.1]),('Name2', [0,2]),('Name3', [0.3]),('Name4', [0.4])],
[('Name1', [0.5]),('Name2', [0,6]),('Name3', [0.7]),('Name4', [0.8])],
[('Name1', [10]),('Name2', [1000]),('Name3', [0.8]),('Name4', [5000])]]
Теперь нужно объединить все значения для каждого имени в одном списке, но каждую карту с помощью ключа , значение, которое я попытался, возвращает неверный результат.
предыдущий результат является объектом РДДА, поэтому, когда я пытаюсь применить функцию, я получаю сообщение, что объект не является РДД итерации – Anastasia
Вы можете попробовать последнюю версию кода, которую я дал? –
Я получаю AttributeError: объект 'list' не имеет атрибута 'reduceByKey' – Anastasia