2016-06-20 5 views
1

Я использую Gensim для подготовки предложений с размером 4, и у меня есть 1192 уникальных слова в наборе учебных материалов. Количество слов в модели len (model.vocab) равно 141, хотя это не имеет смысла. Есть ли причина видеть это? Как я могу изменить их модель, чтобы иметь ключ для каждого слова в обучении? model = Word2Vec (windows, min_count = 1)Количество лексики в gensim намного ниже, чем в данных обучения

ответ

0

Очень поздно ответить, но, возможно, это может помочь кому-то, в gensim.models.word2vec есть параметр по умолчанию, называемый «min_count», значение по умолчанию - 5, оно пропускает менее распространенные слова в вашем наборе данных. Установите его в 1, если вы хотите, чтобы весь vocab был там.

Смежные вопросы