Я использую Gensim для подготовки предложений с размером 4, и у меня есть 1192 уникальных слова в наборе учебных материалов. Количество слов в модели len (model.vocab) равно 141, хотя это не имеет смысла. Есть ли причина видеть это? Как я могу изменить их модель, чтобы иметь ключ для каждого слова в обучении? model = Word2Vec (windows, min_count = 1)Количество лексики в gensim намного ниже, чем в данных обучения
1
A
ответ
0
Очень поздно ответить, но, возможно, это может помочь кому-то, в gensim.models.word2vec есть параметр по умолчанию, называемый «min_count», значение по умолчанию - 5, оно пропускает менее распространенные слова в вашем наборе данных. Установите его в 1, если вы хотите, чтобы весь vocab был там.
Смежные вопросы
- 1. Ошибка теста ниже, чем ошибка обучения
- 2. FPS намного ниже на iPad, чем iPhone
- 3. Анализ данных Gensim
- 4. Bash wc отчет намного ниже, чем LibreOffice и Google Docs
- 5. Если количество функций намного больше, чем количество примеров в наборе данных, то svm все еще работает?
- 6. Facebook «Нравится» на сайте намного ниже, чем на странице Facebook
- 7. Фонда: Searchbar в Navbar простирается намного ниже
- 8. Почему пропускная способность этого приложения для обработки данных C# намного ниже, чем необработанные возможности сервера?
- 9. Ошибка обучения - в чем смысл?
- 10. NodeJS намного медленнее, чем PHP?
- 11. DataAPI намного медленнее, чем MessageAPI?
- 12. gensim word2vec: Найти число слов в словаре
- 13. pandas намного медленнее, чем numpy?
- 14. score_cbow_pair в word2vec (gensim)
- 15. Включение лексики CoffeeScript в SciTE?
- 16. знак() намного медленнее в python, чем matlab?
- 17. Механизм обучения данных обучения
- 18. Gensim - Формат данных Timeslice?
- 19. Применение LDA к корпусу для обучения с использованием gensim
- 20. Автозаполнение появляется намного ниже текстового поля
- 21. Julia намного медленнее, чем Java
- 22. Maildir намного больше, чем ожидалось
- 23. Array.Count() намного медленнее, чем List.Count()
- 24. csvstat занимает намного больше времени, чем pandas
- 25. XGBRegressor намного медленнее, чем GradientBoostingRegressor
- 26. Память эффективного обучения LDA с использованием библиотеки gensim
- 27. fastLm() намного медленнее, чем lm()
- 28. DFD намного больше, чем страница
- 29. Длительный расчет типа данных - Почему Java намного быстрее, чем C++
- 30. Gensim LDA alpha-parameter