Spark DataFrame groupBy и сортировать по убыванию (pyspark)

Я использую pyspark (Python 2.7.9/Spark 1.3.1) и имею DataFrame GroupObject, который мне нужно отфильтровать & в порядке убывания. Попытка добиться этого через этот кусок кода.Spark DataFrame groupBy и сортировать по убыванию (pyspark)

group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False)

Но оно вызывает следующую ошибку.

sort() got an unexpected keyword argument 'ascending'

источник

2015-12-29 rclakmal

В PySpark 1.3 sort метод не принимает параметр по возрастанию. Вы можете использовать метод desc вместо:

from pyspark.sql.functions import col 

(group_by_dataframe 
    .count() 
    .filter("`count` >= 10") 
    .sort(col("count").desc()))

или desc функцию:

from pyspark.sql.functions import desc 

(group_by_dataframe 
    .count() 
    .filter("`count` >= 10") 
    .sort(desc("count"))

Оба метода может быть использован с с искровым> = 1.3 (включая искровые 2.й).

источник

2015-12-29 16:11:42 zero323

Использование OrderBy:

group_by_dataframe.count().filter("`count` >= 10").orderBy('count', ascending=False)

http://spark.apache.org/docs/2.0.0/api/python/pyspark.sql.html

источник

2017-03-08 17:52:06

Подобно выше - но вроде на переименовал имя столбца (псевдоним):

from pyspark.sql.functions import desc 

df=df.count().withColumnRenamed("count", "newColName")\ 
     .filter("`count` >= 10") 
     .sort(desc("newColName")) 
df.show()

источник

2017-11-23 14:23:00 gps

Spark DataFrame groupBy и сортировать по убыванию (pyspark)

ответ

Смежные вопросы