2014-02-26 3 views
2

Я пытаюсь создать модель языка нейронной сети, и кажется, что инструмент word2vec от Mikolov et al - хороший инструмент для этой цели. Я пробовал это, но он просто создает представления слов. Кто-нибудь знает, как я могу создать модель языка с помощью этого инструмента или любой другой разумной основы глубокого обучения?Как вычислить языковую модель с помощью инструмента word2vec?

+0

Я использую OpenNLP прямо сейчас. – mvw

+0

Теперь я знаю, что вы не можете построить модель языка нейронной сети с word2vec, благодаря Phyrox. Так что мне нужен инструмент глубокого обучения с простой в использовании функцией для создания языковых моделей. – Ash

ответ

2

Doc2Vec, реализованный в Gensim, выполняет эту работу. Фокус в том, что они используют идентификатор документа как контекстное слово, которое присутствует во всех размерах окна всех слов в документе.

Кодекс here in Python/Gensim

2

word2vec - инструмент для представления одного слова (группы слов) в виде числового вектора. Поэтому он не имеет прямого отношения к языковой модели.

Для создания языковой модели вы можете использовать MITLM для этого. Например, вы можете создать модель N-грамм, используя корпус Lectures.txt с помощью этой команды:

estimate-ngram -text Lectures.txt -write-lm Lectures.lm 

Отличный учебник можно найти here.

+0

Да, но моя цель - придерживаться моделей языка нейронной сети, особенно тех, которые очень близки к современным методам и имеют простую в использовании среду. – Ash

+1

На самом деле word2vec изучает модель нейронного языка, а затем отбрасывает свои интеллектуальные способности, сохраняя только внутренние представления (вложения) целевого слова. – cvangysel

3

Microsoft Research выпустила набор инструментальных средств для моделирования языков с векторами в стиле word2vec. Вы можете найти его here.

Смежные вопросы