Группировка и нахождение наиболее частых значения

У меня есть ФР так:Группировка и нахождение наиболее частых значения

Protein Peptide 
A  AAA 
A  AAA 
A  ABA 
B  AAA 
B  ABA 
B  ABA

Но мне нужно фильтровать данные, находя для каждого значения в столбце-верхнее встречающееся значение в колонке 2.

Таким образом, выход будет выглядеть следующим образом:

Protein Peptide 
A  AAA 
B  ABA

В действительности мне нужны даже три главных значения. Действительно не знаю, как его решить, используя python и pandas?

источник

2015-04-14 Maku

режим не метод GroupBy, хотя это Series (и DataFrame) метод, так что вы должны передать его apply:

In [11]: df.groupby('Protein')['Peptide'].apply(lambda x: x.mode()[0]) 
Out[11]: 
Protein 
A AAA 
B ABA 
Name: Peptide, dtype: object

Чтобы получить тройку, вы могли бы использование value_counts (таким же образом):

In [12]: df.groupby('Protein')['Peptide'].apply(lambda x: x.value_counts()[:3]) 
Out[12]: 
Protein 
A  AAA 2 
     ABA 1 
B  ABA 2 
     AAA 1 
dtype: int64

источник

2015-04-14 18:56:00

Спасибо! Это сработало! Но мои другие столбцы исчезли (значит, sd). Как их объединить? – Maku

@MPs извините, пропустил бит вопроса, это зависит от того, как вы хотите их объединить (я не думаю, что канонического способа это не имеет смысла?) Возможно, задайте новый вопрос с помощью ввода и желаемого вывода - я думаю, что этот вопрос приятный/самодостаточный/googlable atm! :) –

Группировка и нахождение наиболее частых значения

ответ

Смежные вопросы