Рассмотрим пару RDD:pyspark; как уменьшить значениями эффективного
x = sc.parallelize([("a", 1), ("b", 1), ("a", 4), ("c", 7)])
Есть ли более эффективная альтернатива:
x.map(lambda x: x[1]).reduce(lambda x, y: x+y)
для того, чтобы найти сумму всех значений
Существует небольшая разница в стратегии выполнения между '' sum' и уменьшить (лямбда х, у : x + y) ', но я сомневаюсь, что это существенно повлияет на производительность. – zero323