Я использую модель word2vec для обучения нейронной сети и построения нейронного вложения для поиска похожих слов на векторном пространстве. Но мой вопрос касается размеров в словарных и контекстных вложениях (матрицах), которые мы инициализируем их случайными числами (векторами) в начале обучения, например, https://iksinc.wordpress.com/2015/04/13/words-as-vectors/Откуда берутся размеры в Word2Vec?
Допустим, мы хотим отобразить {book, paper , блокнот, новые слова на графике, в первую очередь мы должны построить матрицу с такими размерами 4x2 или 4x3 или 4x4 и т. д., я знаю, что первое измерение матрицы соответствует размеру нашего словаря | v |. Но второе измерение матрицы (число размеров вектора), например, это вектор для слова «книга» [0,3,0.01,0.04], каковы эти цифры? Имеют ли они какое-либо значение? Например, число, связанное с 0,3 к взаимосвязи между словом «книга» и «бумага» в словаре, 0,01 - это соотношение между книгой и записной книжкой и т. д. Так же, как TF-IDF или матрицы Co-Occurence, каждое значение (столбец) Y имеет значение - его слово или документ, связанные со словом в строке X.
Вы задаете много интересных вопросов! – Aaron