2016-07-17 2 views
2

Я пытаюсь заполнить недостающие значения в блоке данных искры с помощью PySpark. Но нет подходящего способа сделать это. Моя задача - заполнить недостающие значения некоторых строк относительно их предыдущих или следующих строк. Конкретно, я бы изменил значение 0.0 одной строки на значение предыдущей строки, ничего не делая в ничтожной строке. Я видел функцию Window в искры, но она поддерживает только простую операцию типа max, min, mean, которая не подходит для моего случая. Было бы оптимально, если бы у нас могла быть определенная пользователем функция, скользящая по данному окну. У кого-нибудь есть хорошая идея?Заполните пропущенное значение в Spark dataframe

+2

Пожалуйста, поделитесь примерами данных, кодом, который вы пробовали и ожидали вывода. – mtoto

+0

Как вы бы описали "предыдущая строка"? Любая сортировка? –

ответ

1

Используйте Spark window API для доступа к данным предыдущих строк. Если вы работаете с данными временных рядов, см. Также this package за missing data imputation.

+1

@wayag Если ответ работает на вас, примите ответ :) –

Смежные вопросы