У меня есть Спарк dataframe, который я хочу, чтобы получить статистикуПолучение значения из DataFrame на основе другого значения столбца (PySpark)
stats_df = df.describe(['mycol'])
stats_df.show()
+-------+------------------+
|summary| mycol|
+-------+------------------+
| count| 300|
| mean| 2243|
| stddev| 319.419860456123|
| min| 1400|
| max| 3100|
+-------+------------------+
Как извлечь значения min
и max
в mycol
с помощью summary
min
max
значения столбцов? Как это сделать с помощью индекса чисел?
Я уже ответил на этот вопрос [здесь] (http://stackoverflow.com/questions/35272086/spark-1-6-filtering-dataframes-generated-by-describe) – eliasah
@eliasah Может понравиться предоставить решение для Python здесь? Мне сложно перевести ваше решение, поскольку я не знаю Scala. – menorah84
Хорошо, я написал ответ ниже! Если он решает вашу проблему, примите и поддержите :) – eliasah