У меня есть следующие dataframe с двумя первой строки выглядит как:Каков наиболее эффективный способ в pyspark для сокращения данных?
['station_id', 'country', 'temperature', 'time']
['12', 'usa', '22', '12:04:14']
Я хочу, чтобы отобразить среднюю температуру порядка 100 первых станций в «Франция» по убыванию.
Каков наилучший способ (наиболее эффективный) сделать это в pyspark?
Что вы пробовали, кажется, '' filter', map' , 'reduceByKey' и' sortBy' будут работать. – AChampion
Вы имеете в виду заголовки столбцов и первую строку? – mtoto
Да, первый - это заголовок колонки – mel