У меня есть файл журнала, состоящий из «События», «Время», «Пользовательский».Расчет среднего времени между событиями пользователями с pySpark
+------------+----------------+---------+
| Events | Time | UserId |
+------------+----------------+---------+
| ClickA | 7/6/16 10:00am | userA |
+------------+----------------+---------+
| ClickB | 7/6/16 12:00am | userA |
+------------+----------------+---------+
Я бы хотел, чтобы каждый пользователь вычислил среднее время между событиями. Как вы решаете эту проблему? В традиционной среде программирования я бы прошел через каждое событие для пользователя и вычислил временную дельта между событиями n и n-1, добавив это значение в массив A. Затем я вычислил среднее значение для каждого значения в A. Как я могу это сделать с помощью Spark?
Спасибо zero323! Знаете ли вы, как я могу наложить эту строку (5/1/2016 4:03:34 PM) на метку времени? Я не мог найти правильный путь с pyspark. – Ahmet
В значительной степени, как показано здесь: http://stackoverflow.com/a/36095322/1560062, но вам придется настроить формат (https://docs.oracle.com/javase/7/docs/api/java/text /SimpleDateFormat.html) – zero323