pyspark; как уменьшить значениями эффективного

Рассмотрим пару RDD:pyspark; как уменьшить значениями эффективного

x = sc.parallelize([("a", 1), ("b", 1), ("a", 4), ("c", 7)])

Есть ли более эффективная альтернатива:

x.map(lambda x: x[1]).reduce(lambda x, y: x+y)

для того, чтобы найти сумму всех значений

источник

2015-07-21 ranlot

Существует небольшая разница в стратегии выполнения между '' sum' и уменьшить (лямбда х, у : x + y) ', но я сомневаюсь, что это существенно повлияет на производительность. – zero323

Поскольку x является PairRDD вы можете использовать метод values вместо того, чтобы извлекать значения вручную:

x.values().sum()

источник

2015-07-21 13:10:32 zero323

Существует sum метод в RDD API

x.map(lambda x: x[1]).sum()

sum (self) исходный код

Добавить элементы в этом RDD.

sc.parallelize([1.0, 2.0, 3.0]).sum() 
6.0

источник

2015-07-21 12:59:55 ccheneson

pyspark; как уменьшить значениями эффективного

ответ

Смежные вопросы