2015-04-29 5 views
0

Gensim оптимизированная питон порт Word2Vec (см http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/)параметры Word2Vec и Gensim эквивалентности

я в настоящее время с помощью этих векторов: http://clic.cimec.unitn.it/composes/semantic-vectors.html

я собираюсь повторно запустить модель обучения с gensim, потому что там был какой-то шумные маркеры в их моделях. Так что я хотел бы узнать, каковы некоторые эквивалентные параметры word2vec в gensim

И параметры, которые они использовали из word2vec являются:

  • 2-слово контекста окно, PMI утяжелители, без сжатия, 300K размерами

Что такое эквивалентность gensim, когда я тренирую модель Word2Vec?

ли:

>>> model = Word2Vec(sentences, size=300000, window=2, min_count=5, workers=4) 

Есть вариант веса PMI в gensim?

Какое значение min_count по умолчанию используется в word2vec?

Там в другом наборе параметров из word2vec как таковые:

  • 5-слово контекста окна, 10 отрицательных образцы, подвыборки, 400 размеров.

Есть ли отрицательный образец параметра в gensim?

Какова эквивалентность параметров подвыборки в gensim?

+0

, пожалуйста, объясните, почему вопрос слишком широк?В любом случае, это очень специфично для использования API и выяснения наличия скрытых параметров, которые не документированы, и эквивалентности параметров между портом python инструмента word2vec – alvas

ответ

3
  1. Бумага связывании сравнивает вложения слова из ряда схем, в том числе непрерывного мешка слов (CBOW). CBOW - одна из моделей, реализованных в модели «word2vec» от Gensim. В документе также рассматриваются словарные вложения, полученные из разложения сингулярных значений с различными схемами взвешивания, некоторые из которых связаны с PMI. Между SVD и word2vec нет эквивалентности, но если вы хотите сделать SVD в gensim, это называется «LSA» или «Скрытый семантический анализ», когда выполняется обработка на естественном языке.

  2. Параметр min_count по умолчанию равен 5, как можно видеть here.

  3. Отрицательный выборка и иерархический Softmax - это два приближенных метода вывода для оценки распределения вероятности по дискретному пространству (используется, когда нормальный softmax слишком вычислительно дорог). Gensim's word2vec реализует оба. По умолчанию используется иерархический softmax, но вы можете использовать отрицательную выборку, установив гиперпараметр negative больше нуля. Это описано в комментариях в коде gensim here.