2016-07-08 3 views
1

Я хочу найти условную вероятность слова, учитывая его предыдущий набор слов. Я планирую использовать для этого Google N-grams. Однако, будучи таким огромным ресурсом, как я, я не думаю, что это возможно сделать на моем ПК. (Для обработки всех N-граммов, для обучения языковой модели).обучить языковой модели с помощью Google Ngrams

Так можно ли каким-либо образом обучать языковой модели с помощью Google Ngrams? (Даже python NLTK библиотека не поддерживает ngram языковую модель) Примечание. Я знаю, что языковая модель может быть обучена с помощью ngrams, но с учетом огромного размера Google N граммов, как можно обучить языковой модели, используя специально разработанные Google ngrams?

+0

Вопрос: Можно ли использовать Google N-граммы для обучения или модели или как обучать языковой модели с помощью ngrams или обоих? – erip

+0

Как обучить языковой модели с помощью ngrams –

+1

http://scikit-learn.org/stable/modules/feature_extraction.html – erip

ответ

2

Вы должны проверить этот скользкий базовый код из Калифорнийского университета в Беркли: https://github.com/adampauls/berkeleylm

В папке examples/ вы найдете Баш скрипт make-binary-from-google.sh, который создает компактную модель языка из необработанного Google N-грамм. В результате LM реализует глупую отсрочку и использует быструю и эффективную структуру данных, описанную в следующей статье: http://nlp.cs.berkeley.edu/pubs/Pauls-Klein_2011_LM_paper.pdf

Если вас интересует только что подготовленная LM, вы можете загрузить ее на разных языках из Berkley-hosting сайт: http://tomato.banatao.berkeley.edu:8080/berkeleylm_binaries/

Смежные вопросы