Word2Vec фиксирует распределенное представление слова, которое по существу означает, несколько нейронов (клетка) захватить одну концепцию (концепция может быть значение слова/настроение/частью речи и т.д.), а также один нейрон (клеток) способствует нескольким понятиям.
Эти понятия автоматически изучаются и не заданы заранее, поэтому вы можете считать их скрытыми/скрытыми.
Больше числа нейронов (ячеек), больше будет способностью вашей нейронной сети представлять эти концепции, но для обучения этих векторов потребуется больше данных (поскольку они инициализируются случайным образом).
size
словарного вектора значительно меньше, чем размер словаря (обычно), поскольку мы хотим сжатое представление слова. Косинус-сходство между двумя словами-векторами указывает на сходство между двумя словами.
РЕДАКТИРОВАТЬ
Для большей ясности, думать о каждом слове будучи ранее представленной одним докрасна, кодируемого вектором размера словаря, который составляет порядка тысяч/миллионов. Это же слово теперь сконденсировано в 200 или 300-мерный вектор. Чтобы найти связь между двумя словами, вам нужно вычислить сходство косинусов между векторным представлением этих двух слов.
Были ли какое-либо исследование сделано на встроенном вектор размера v. Производительность модели/точности? – velocirabbit
Да. Многие документы сообщают о результатах, фиксирующих все параметры и изменяя размер размерности внедрения (даже тот, на который я ссылался). Как правило, лучший размер зависит от данных обучения, задачи, конкретной модели, других функций и т. Д. Если вы воспроизводите чужую работу, вы можете (и, вероятно, должны) начать с их сообщенной конфигурации. –