У меня есть dataframe в pyspark. Вот как это выглядит,Вставка записей в световой информационный кадр
+---------+---------+
|timestamp| price |
+---------+---------+
|670098928| 50 |
|670098930| 53 |
|670098934| 55 |
+---------+---------+
Я хочу, чтобы заполнить пробелы в метку времени с предыдущего состояния, так что я могу получить идеальный набор для расчета времени, взвешенные средние значения. Вот то, что результат должен быть как -
+---------+---------+
|timestamp| price |
+---------+---------+
|670098928| 50 |
|670098929| 50 |
|670098930| 53 |
|670098931| 53 |
|670098932| 53 |
|670098933| 53 |
|670098934| 55 |
+---------+---------+
В конце концов, я хочу, чтобы упорствовать этот новый dataframe на диске и визуализировать мой анализ.
Как это сделать в pyspark? (Для простоты, я просто держал 2 колонки. Моя текущая dataframe имеет 89 столбцов с ~ 670 миллионов записей до заполнения пробелов.)
Вы можете сделать интерполяцию с помощью scipy. Я не слишком уверен, что PySpark может делать то, что вы хотите –
@ cricket_007 искра не может этого сделать. Винет, я не знаю, почему ты хочешь это сделать? – eliasah
@eliasah Я пытаюсь создать dataframe с записью для каждой отметки времени (ранжирование самого низкого уровня), так что, если я хочу делать средневзвешенные средние значения, это очень удобно. – Veenit