У меня есть dataframe, и я пытаюсь подсчитать количество людей, которые присоединились к группе по дате. Так что это:Подсчет записей по подкатегориям и дате в pandas
individual_id group_id date
a 1 2000-01-01
a 1 2000-01-02
a 1 2000-01-03
b 1 2000-01-02
b 1 2000-01-04
c 1 2000-01-03
c 1 2000-01-04
d 2 2000-01-02
стал бы это:
individual_id group_id date people_in_group
a 1 2000-01-01 1
a 1 2000-01-02 2
a 1 2000-01-03 3
b 1 2000-01-02 2
b 1 2000-01-04 3
c 1 2000-01-03 3
c 1 2000-01-04 3
d 2 2000-01-02 1
Не могли бы вы подтвердить, что это 'Panel' тип данных? Поскольку это 2-D, я бы ожидал, что это будет «DataFrame» –
. Я отправил ответ, но я не думаю, что это то, что вы хотите. Я официально смущен !! Даты 2000-01-05 и 2000-01-06 появляются в исходном фрейме данных, но не в результате - можете ли вы объяснить, почему? Можете ли вы объяснить, что означают несколько строк с одинаковыми 'individual_id' и' group_id'? Я понял, что один и тот же человек несколько раз присоединялся к группе, но теперь думаю, что это может быть неправильно. –
Ugg. Ужасная опечатка; так жаль! Должно быть одинаковое между этими двумя. Причина, по которой есть несколько строк, состоит в том, что это панель с несколькими наблюдениями над одним и тем же человеком. В моем наборе данных есть другие важные переменные, которые мне нужно отслеживать. Каждый индивидуум должен учитываться только один раз. В 2000-01-01 в группе есть только один человек, а в 2000-01-03 в группе три человека: a, b и c. – Luke