Я пытаюсь реализовать прямое и обратное распространение для word2vec с помощью skip-грамма. Я новичок в нейронных сетях, но от моего понимания, это то, как он идет: (? Сигмовидной или SoftMax)реализация word2vec с отрицательной выборкой
- взять скалярное произведение входных векторов и матрицу случайным образом инициализируется весов
- Активировать
- взять скалярное произведение активированного скрытого слоя и другую матрицу случайным образом инициализируется весов
- Activate (сигмовидной или SoftMax?)
- мы как-то сравнить вывод, что мы получаем после шага 4, и вычислить производную ошибки (целевых -output) по отношению к каждому весу в матрице. Вычитаем производную от текущего веса. Мы делаем это как для скрытых на выходе слоев, так и для скрытых входных слоев. Мы делаем это много раз, пока не будем достаточно хорошими.
Пожалуйста, исправьте меня, если что-то пошло не так.
Так что теперь мои вопросы:
Что должно быть мишенью для обоих правильных пропуском грамм, так и отрицательные образцы? Являются ли они 1 и 0 соответственно? Или это будет контекст скип-графа? Я действительно не уверен.
Как следует рассчитать потерю?
спасибо.
А также это https://iksinc.wordpress.com/ страница 2/ –