2016-02-13 2 views
2

В настоящее время я работаю над заданием, где мне нужно найти Outliers & заменить их средними/средними для предыдущих 2 и следующих 2 значений в столбце.
У меня есть это ниже 2 столбцов в качестве кадра данных.
Примеры данных приведены ниже.
enter image description hereПоиск Outliers и замена на Среднее значение в Apache Spark

Пожалуйста, дайте мне знать, как достичь этого, используя фреймы данных. Любые предложения были бы полезны. Спасибо.

+2

Выполняется ли она с некоторой группировкой? Как вы определяете порядок? Какой язык вы используете? – zero323

+0

Да, это правильно, с Группировкой CustomerID. Я использую Scala – Kazhiyur

+0

Как насчет заказа? И вы хотите использовать стандартное отклонение данных и стандартное отклонение или для каждого клиента? – zero323

ответ

0

Я понял решение моего вышеуказанного вопроса.
Используя функцию HiveContext Window, мы можем идентифицировать строки до & после обнаружения вылета & заменить их. Ниже приведен пример кода.
вал ш = Window.partitionBy ("CustomerID"). OrderBy ("EVENTDATE")
вал перед тем = w.rowsBetween (-2, -1) после того, как вал = w.rowsBetween (1,2)