Pyspark - Max/Min Parameter

У меня есть запрос. В Pyspark, когда нам нужно получить общее (SUM) на основе (Key, Value), наш запрос читается как:Pyspark - Max/Min Parameter

RDD1 = RDD.reduceByKey(lambda x , y: x + y)

, где, как, когда нам нужно найти MAX/значение MIN для (Key, Value) наш запрос читается как

RDD1 = RDD.reduceByKey(lambda x , y: x if x[1] >= y[1] else y)

Почему, когда мы Просуммировать данные не используя x[1], Y[1], где, как же является использование для MAX/MIN ?. Просьба уточнить сомнения.

Rgd-х

Вы ошибаетесь, и вы сделали этот код из контекста. В обоих случаях x и y относятся к значениям.

lambda x , y: x if x[1] >= y[1] else y

эквивалентно:

lambda x, y: max(x, y, key=lambda x: x[1])

Он сравнивает значения их второго элемента, и означает, что каждое значение :

Пример

sc.parallelize([(1, ("a", -3)), (1, ("b", 3))]) \ 
    .reduceByKey(lambda x , y: x if x[1] >= y[1] else y).first()

будет (1, ('b', 3)), потому что 3 больше, чем -3.

2016-12-31 13:22:32 user7337271

ответ