В NLTK, вы можете легко вычислить счетчики для слов в тексте, скажем, делаяNLTK FreqDist, рассчитайте нормализованные значения?
from nltk.probability import FreqDist
fd = FreqDist([word for word in text.split()])
где текст представляет собой строку. Теперь вы можете построить распределение как
fd.plot()
и что даст вам хороший линейный график с подсчетами для каждого слова. В docs нет упоминания о способе построения фактических частот вместо этого, который вы можете увидеть в fd.freq(x)
.
Любой простой способ построения нормализованных счетчиков, без учета данных в других структурах данных, нормализации и печати отдельно?
Спасибо. Слишком плохо, что у него нет метода plot(), чтобы показать сюжет, как это делает FreqDist. Кроме того, FreqDist уже имеет метод «freq», который нормализуется, но это не решает мою проблему построения графика непосредственно из объекта. –
Может показаться маловероятным рассчитать вероятности, каковы ваши оси x и y в этом случае? – alvas
Вместо графа я хочу частоту появления, вот и все. Имеет смысл, я хочу знать, какова доля слова в корпусе. Я понимаю, что слово «частота» в лингвистике используется для обозначения подсчетов, но мне нужно соотношение. –