я упростил большой фрейм данных с помощью этого простого кадра данных:Подсчет уникальных имен в кадре Пандас данных
IDX POS REF ALT
13 633 C A
15 643 C T
42 2015 G A
43 2016 G A
151 9538 T C
154 9542 TC TCC,T
169 10041 T A
170 10041 T TAA,TA
Данные из геномной области с нуклеотидной позицией и ссылка геномом нуклеотидом и альтернативными нуклеотидами от разные люди для этой же позиции. У меня есть то, что некоторые позиции (9542 и 10041) имеют две разные альтернативы нуклеотидов.
Я хочу перебирать столбцы ALT и подсчитывать количество уникальных нуклеотидов, чтобы создать отдельный столбец со счетами. Я не видел, как это можно сделать с помощью pandon pandas.
Новый кадр данных будет выглядеть следующим образом:
IDX POS REF ALT COUNT
13 633 C A 1
15 643 C T 1
42 2015 G A 1
43 2016 G A 1
151 9538 T C 1
154 9542 TC TCC,T 2
169 10041 T A 1
170 10041 T TAA,TA 2
Как это будет возможно сделать это с помощью панд (или просто питона)?
спасибо.
Родриго