я могу читать текст с NLTK корпусов python2.6:Как эффективно найти списки букв с помощью NLTK в Python?
from nltk.corpus import gutenberg
for fileid in gutenberg.fileids():
num_chars = len(gutenberg.raw(fileid))
num_words = len(gutenberg.words(fileid))
num_sents = len(gutenberg.sents(fileid))
num_vocab = len(set([w.lower() for w in gutenberg.words(fileid)]))
print int(num_chars/num_words), int(num_words/num_sents), int(num_words/num_vocab), fileid
Теперь я хотел бы найти средние вхождений букв слов и фраз, что-то вроде num_letters (whole_text, [ «а», «бб» , 'ccc']). Ожидаемый результат:
а = n11/n12, бб = n21/n22, ссс = n31/n32
где N11 = вхождения в слова и N12 = появлений на предложениях.
Как бы вы получите процент появление буквы, используемой для слов? Теперь кажется, что «несколько раз» за слово, я прав? – MarkokraM
@PHPGAE - Извините, я не понимаю ваш вопрос, не могли бы вы дать более подробную информацию. И вы на самом деле имеете в виду буквы (a, b, c, d, e ...)? – fraxel
Скажите слово «домохозяйство» 2 * h, 2 * o, 2 * ho, ... Если я хочу получить среднее появление строк [h, o, ho] за слова, я думаю, мне нужно их пересчитать только один раз за слово, а не дважды. Его отличие по сравнению с тем, чтобы получить средний показатель за весь текстовый корпус. – MarkokraM