У меня есть большой файл данных с информацией о местоположении некоторых пользователей. Формат показан ниже:Python: Как получить распределение времени, проведенного в местоположении
User TimeStamp Lat Long
A 2013-03-01 19:55:00 45.4565 65.6783
A 2013-03-01 01:40:00 46.3121 -12.3456
A 2013-03-02 11:25:00 23.1234 -85.3456
A 2013-03-05 05:00:00 15.4565 32.1234
......
C 2013-03-01 19:55:00 44.4565 35.6783
C 2013-03-03 11:20:00 42.3121 -22.3456
C 2013-03-03 11:25:00 42.3121 -22.3456
C 2013-03-03 11:30:00 16.4565 22.1234
C 2013-03-03 11:50:00 42.3121 -22.3456
C 2013-03-03 11:55:00 19.4565 -25.1234
......
Временные метки таковы, что каждая строка представляет собой местоположение в течение 5-минутного интервала. Эти данные рассчитаны на одну неделю.
Теперь, что я хочу сделать, это получить простой дистрибутив (гистограмма) времени, проведенного в каждом месте одним пользователем в день в течение всего недельного периода. Таким образом, это будет от 0 до 24 часов графика времени, проведенного в каждом месте в день на каждого пользователя.
Вторая вещь похожа на приведенную выше, но вместо того, чтобы рассматривать общее время на одного пользователя в день, я буду рассматривать только непрерывное время. Например, для пользователя C я бы рассмотрел вторую и третью строки вместе как 10-минутный период, но 5-я строка, где он вернулся в том же месте, будет отдельным 5-минутным периодом.
Как бы это сделать в python? Я новичок здесь, и здесь я просто застрял. Я бы предположил, что я могу сломать временную метку в день, час, минуты и секунды, чтобы получить эти подсчеты в день. Но после этого я потерялся.
У вас есть '' numpy' и matplotlib' установлены пакеты? – unutbu
Я бы посмотрел на [панды] (http://pandas.pydata.org/). – root
Да. У меня также установлены панды вместе с numpy и matplotlib. Использование любых свободно доступных библиотек не будет проблемой. Изучение того, как их использовать, - это то, что мне нужно изучить :) – sfactor