у меня есть панд DataFrame, который выглядит по сути, как следующее:Эффективный способ многократно извлекать группы строк в панд
Group Date Value etc.
1 01/01 10
1 05/01 10
1 08/01 5
1 15/01 5
1 18/01 2
1 21/01 10
...
2 02/01 3
2 15/01 4
2 25/01 1
...
3 01/01 6
....
Я хотел экстракт каждый Group
в отдельную панд dataframe, содержащий все строки в том, что (например, в словарь с ключами 1,2,3 и т. д.). Очевидный способ сделать это - использовать фрагмент (например, df[df.Group == 1]
), проходящий через группы.
Однако при очень большом наборе данных (700 тыс. Строк с группами 30 тыс.) Метод среза довольно медленный, так как все транзакции 700 тыс. Должны быть доступны для каждой из 30 тыс. Групп.
Любые предложения по более быстрому методу, когда каждый из 700k строк должен быть доступен один раз для выполнения группировок? Благодаря!
зачем вам это нужно в отдельных наборах данных? –
Мне нужно выполнить ряд операций над каждой группой строк, и для этого мне просто нужны строки из этой группы. В противном случае я в конечном итоге повторяю выполнение операций среза во всем наборе. – David