2016-06-16 5 views
1

я упростил большой фрейм данных с помощью этого простого кадра данных:Подсчет уникальных имен в кадре Пандас данных

IDX POS  REF ALT 
13 633  C A 
15 643  C T 
42 2015 G A 
43 2016 G A 
151 9538 T C 
154 9542 TC TCC,T 
169 10041 T A 
170 10041 T TAA,TA 

Данные из геномной области с нуклеотидной позицией и ссылка геномом нуклеотидом и альтернативными нуклеотидами от разные люди для этой же позиции. У меня есть то, что некоторые позиции (9542 и 10041) имеют две разные альтернативы нуклеотидов.

Я хочу перебирать столбцы ALT и подсчитывать количество уникальных нуклеотидов, чтобы создать отдельный столбец со счетами. Я не видел, как это можно сделать с помощью pandon pandas.

Новый кадр данных будет выглядеть следующим образом:

IDX POS  REF ALT COUNT 
13 633  C A  1 
15 643  C T  1 
42 2015 G A  1 
43 2016 G A  1 
151 9538 T C  1 
154 9542 TC TCC,T 2 
169 10041 T A  1 
170 10041 T TAA,TA 2 

Как это будет возможно сделать это с помощью панд (или просто питона)?

спасибо.

Родриго

ответ

2

count Я бы запятые и добавить 1

df['COUNT'] = df.ALT.str.count(',') + 1