2016-12-22 5 views
-3

У меня есть большой набор данных около 12000 строк. Данные состоят из значений смещения и отметки времени. На каждые 10 строк я хочу рассчитать среднее значение, отклонение std dev и т. Д.Как рассчитать средние значения бина, используя Spark Scala?

Могу ли я использовать функцию функции окна для этого? Или кто-то может предложить более простой способ?

P.S: Я новичок в Spark и scala. Заранее спасибо.

+0

Что вы придумали сами? Как вы вычисляете бункеры? Вы можете выполнить операцию 'reduceByKey', где ключ - соответствующий бит. –

+0

Binsize не определен заранее. Это входной параметр пользователя. Я не думаю, что reduceByKey может решить проблему. – Hancel

ответ

1

да использовать rolling windows с lag, lead, rowsBetween и т.д. опции много доступных в зависимости от вашего случая использования здесь некоторые ссылки: windows explainedmore windows info

+0

Знаете ли вы какой-либо способ увеличить размер шага/скользящий размер функции окна? по умолчанию оно установлено в 1. – Hancel

+0

Насколько я знаю, функции Window будут вычислять результаты каждой строки с перекрытием. Я хочу получить один результат. т. е. в среднем 10 строк. затем среднее значение следующих 10 строк. [1-10 - bin1,11-20 -bin2] и так далее. – Hancel

+0

PLS вставьте свой код - кадр данных и желаемый результат –

Смежные вопросы