У меня есть интересная проблема, я пытаюсь рассчитать время дельта между записями, сделанными в разных местах.расчет дельта-времени между записями в dataframe
id x y time
1 x1 y1 10
1 x1 y1 12
1 x2 y2 14
2 x4 y4 8
2 x5 y5 12
Я пытаюсь получить некоторые вещи, как
id x y time delta
1 x1 y1 10 4
1 x2 y2 14 0
2 x4 y4 8 4
2 x5 y5 12 0
Я сделал этот тип обработки с HiveQL с помощью пользовательских UDTF, но думал, как я могу добиться этого с DataFrame вообще (может это быть в R, Pandas, PySpark). В идеале я пытаюсь найти решение для Pandon pandas и pyspark.
Любые подсказки, спасибо за ваше время!
Почему строка '1 x1 y1 12 'отсутствует в выводе? – jezrael
Вам нужно 'df.groupby (['id']) ['time']. Diff()'? – jezrael
Привет @jezrael строка 1 отсутствует, потому что эта запись была выполнена в том же месте, что и строка 0, я пытаюсь найти время дельты в разных местах. Я могу сделать группу только после того, как я удалю несколько записей, сделанных в каждом месте. Я всегда хочу, чтобы первая запись была сделана на месте. – suppoor