Я пытаюсь работать с Pandas, и мне нужно решение для следующей проблемы.Python pandas итерации через dataframe
У меня есть набор данных с колоннами, которые выглядят так:
X1 Y1 Z1 1.....(bunch of other columns)
X1 Y1 Z1 2.....(bunch of other columns)
X1 Y1 Z1 3.....(bunch of other columns)
X2 Y2 Z2 1.....(bunch of other columns)
X2 Y2 Z2 2.....(bunch of other columns)
X2 Y2 Z2 3.....(bunch of other columns)
X2 Y2 Z2 4.....(bunch of other columns)
Мне нужно обработать набор данных, рассматривая первые три столбца в качестве ключа. Поэтому мне нужно сначала рассмотреть все строки, связанные с X1 Y1 Z1
, обработать кучу столбцов в этом, а затем перейти к следующему фрагменту X2 Y2 Z2
. Таким образом, первый его
X1 Y1 Z1 1.....(bunch of other columns)
X1 Y1 Z1 2.....(bunch of other columns)
X1 Y1 Z1 3.....(bunch of other columns)
следует
X2 Y2 Z2 1.....(bunch of other columns)
X2 Y2 Z2 2.....(bunch of other columns)
X2 Y2 Z2 3.....(bunch of other columns)
X2 Y2 Z2 4.....(bunch of other columns)
Я ищу решение в пандах или NumPy для обработки этого набора данных. И я имею дело с миллионами строк, поэтому pandas iterrows()
будет медленным.
'df_group' содержит оригинальный dataframe, который выглядит перепутались –
' df_group' будет кортеж из 2-х элементов. Первый элемент - это конкатенированная строка столбцов 'X',' Y' и 'Z'. Второй элемент - это подгруппа/фрагмент, который вы хотите обработать. Отредактировал ответ, чтобы разделить два элемента в строке 'for'. – vk1011
'concat_XYZ' теперь является строкой типа' X1Y2Z2', а 'df_group' теперь является процессом DataFrame/chunk. – vk1011