Я пытаюсь выяснить, как подсчитать количество частот, которые в текстовом файле появились теги слова I-GENE и O.Подсчет частоты
Пример файла Я пытаюсь вычислить это:.
45 WORDTAG O cortex
2 WORDTAG I-GENE cdc33
4 WORDTAG O PPRE
4 WORDTAG O How
44 WORDTAG O if
Я пытаюсь вычислить сумму слова [0] (столбец 1) в одной и той же категории (например, I- гЕН) то же самое с категории (например, O)
В этом примере:.
сумма слов с категории I-GENE 2
и сумма слов с категорией O 97
МОЙ КОД:
import os
def reading_files (path):
counter = 0
for root, dirs, files in os.walk(path):
for file in files:
if file != ".DS_Store":
if file == "gene.counts":
open_file = open(root+file, 'r', encoding = "ISO-8859-1")
for line in open_file:
tmp = line.split(' ')
for words in tmp:
for word in words:
if (words[2]=='I-GENE'):
sum = sum + int(words[0]
if (words[2] == 'O'):
sum = sum + int(words[0])
else:
print('Nothing')
print(sum)
Итак ... что делает ваш код? Что вы хотите сделать вместо этого? Просьба представить материалы и ожидаемые и фактические результаты. – jonrsharpe
В программировании это не называется частотой, которая является периодическим словом, числом вхождений за период. При программировании слова есть OCCURENCES и wordcount, и у вас будет больше удачи в этом ключевом слове, на самом деле вы набираете его на goog witht string и python, и вы получите ответ почти сразу. –