У меня массивный блок данных с четырьмя столбцами, два из которых являются «датой» (в формате datetime
) и «страницей» (местоположение сохранено как string
). Я сгруппировал dataframe на «странице» и назвал его pagegroup
и хочу знать диапазон времени, по которому осуществляется обращение к каждой странице (например, первый доступ был на 1-1-13, последний на 1-5-13, поэтому max-min составляет 5 дней).Расчет date_range над объектом GroupBy в pandas
Я знаю, что в панд я могу использовать date_range
для сравнения двух DateTimes, но пытается что-то вроде:
pagegroup['date'].agg(np.date_range)
возвращается
AttributeError: 'module' object has no attribute 'date_range'
при попытке простой (не даты конкретных) Numpy функции ptp
дает мне целостный ответ:
daterange = pagegroup['date'].agg([np.ptp])
daterange.head()
ptp
page
%2F 0
/ 13325984000000000
/-509606456 297697000000000
/-511484155 0
/-511616154 0
Может кто-нибудь подумать способ рассчитать диапазон дат и вернуть его в распознаваемый формат даты?
Спасибо
[ 'date_range'] (http://pandas.pydata.org/pandas-docs/stable/timeseries. html # time-series-date-function) - это функция pandas (так что это 'pd.date_range' не' np'), но она не сравнивает два времени. –