У меня есть матричная форма (600, 9 миллиардов), сохраненная как файл *.txt
. Каждая строка матрицы называется другим именем выборки sample_name1
, sample_name2
и т. Д. Однако существуют имена примеров, которые не стандартизированы, например. s###30023
Как подсчитать символы каждой строки матрицы с помощью Python? Счетчик()?
Впоследствии имеется строка из трех символов, каждая длиной ~ 9 миллиардов символов.
sample_name1 ab2ab222baab22ba2bab2b2aab22ab22bababab2baab2b2a
Матрица в следующем формате:
600 9123001002
sample_name1 ab2ab222baab22ba2bab2b2aab22ab22bababab2baab2b2a2bababab2baab2b2ab2a...
sample_name2 abbbbbbbbbbbb2bbbbbbbbbbabbbbbbaaabbbbbbbbb222bbbbbabababbbb2b2b2bbb...
...
Я хотел бы создать словарь (или список, панды DataFrame) каждый образец с количеством уникальных персонажей подсчитанных. То есть, в словарной форме:
sample_name1 = {'a': 1824600201, 'b': 2736900300, '2': 4561500501}
для каждой строки.
Самый быстрый способ подсчета символов в python - использовать from collections import Counter
. Можно загрузить текстовый файл в numpy
, перебирать каждую строку матрицы и затем использовать для каждой строки Counter()
.
Однако, как очистить правильную метку для каждой строки, особенно если эти метки не стандартизированы? Возможно, я мог бы взять первые X символов для каждой строки матрицы?
ли вы гарантировали, что пространство отделяет ярлык от текста? – AChampion
@AChampion Да, это похоже на вкладку. – ShanZhengYang
@ShanZhengYang: есть ли другой символ пробела подряд? –