Я беру строку, tokenizing, и хочу посмотреть на наиболее распространенных биграммах, вот что я получил:обращающихся элементов счетчика, содержащего ngrams
import nltk
import collections
from nltk import ngrams
someString="this is some text. this is some more test. this is even more text."
tokens=nltk.word_tokenize(someString)
tokens=[token.lower() for token in tokens if len()>1]
bigram=ngrams(tokens,2)
aCounter=collections.Counter(bigram)
Если I:
print(aCounter)
Затем он будет выводить битрамы в отсортированном порядке.
for element in aCounter:
print(element)
Распечатайте элементы, но не с графом, а не по порядку. Я хочу сделать цикл for, где я распечатываю X самых распространенных биграмм в тексте.
Я по существу стараюсь одновременно изучать как Python, так и nltk, так что это может быть поэтому, потому что я боюсь здесь (я предполагаю, что это тривиальная вещь).