У меня есть большой набор данных около 12000 строк. Данные состоят из значений смещения и отметки времени. На каждые 10 строк я хочу рассчитать среднее значение, отклонение std dev и т. Д.Как рассчитать средние значения бина, используя Spark Scala?
Могу ли я использовать функцию функции окна для этого? Или кто-то может предложить более простой способ?
P.S: Я новичок в Spark и scala. Заранее спасибо.
Что вы придумали сами? Как вы вычисляете бункеры? Вы можете выполнить операцию 'reduceByKey', где ключ - соответствующий бит. –
Binsize не определен заранее. Это входной параметр пользователя. Я не думаю, что reduceByKey может решить проблему. – Hancel