У меня есть следующий код, который оценивает вероятность того, что строка текста принадлежит определенному классу (положительному или отрицательному).Оценка вероятности вероятности NLTK с n-граммами
import pickle
from nltk.util import ngrams
classifier0 = open("C:/Users/ned/Desktop/gherkin.pickle","rb")
classifier = pickle.load(classifier0)
words = ['boring', 'and', 'stupid', 'movie']
feats = dict([(word, True) for word in words])
classifier.classify(feats)
probs = classifier.prob_classify(feats)
for sample in ('neg', 'pos'):
print('%s probability: %s' % (sample, probs.prob(sample)))
Это приводит к следующему:
neg probability: 0.944
pos probability: 0.055
[Finished in 24.7s]
маринованный классификатор, который я загрузка уже использует п-грамм.
Мой вопрос:
Как я могу изменить этот код так, что п-граммы включены в оценку вероятности?