У меня есть массив Array [(Int, String)], который состоит из пар ключ-значение для всего набора данных, где ключ - это номер столбца, а значение - значение столбца.Пользовательская функция внутри reduceByKey in spark
Итак, я хочу использовать reduceByKey для выполнения определенных операций, таких как max, min, mean, median, quartile вычисления по ключу.
Как добиться этого, используя reduceByKey, поскольку groupByKey проливает много данных на диск. Как передать пользовательскую функцию внутри reduceByKey.
Или есть лучший способ сделать это.
Спасибо!
Как вы планируете вычислять max, min, mean и т. Д. По значениям String? – pzecevic
reduceByKey уже выполняет (пользовательскую) функцию. Итак, каков ваш реальный вопрос? –
@Paul ... да, я могу использовать пользовательскую функцию внутри reduceByKey, чтобы найти min. Но я хочу рассчитать значение min, max и mean внутри одной пользовательской функции. Является ли это возможным. Защиту MyFunc (х: распашные у: Double) = { , если (х> у) х еще у } –