2015-06-05 4 views
2

Я новичок в stackoverflow. Пожалуйста, простите мой плохой английский.Смещение word2vec к специальному корпусу

Я использую word2vec для школьного проекта. Я хочу работать с определенным доменным корпусом (например, физическим учебником) для создания векторов слов, используя Word2Vec. Это автономное не дает хороших результатов из-за меньшего размера корпуса. Это особенно больно, так как мы хотим оценить слова, которые могут очень сильно отличаться от словаря учебника.

Мы хотим, чтобы учебник кодировал специфические отношения домена и смысловую «близость». «Квант» и «Гейзенберг» особенно близки в этом учебнике, например. что может оказаться неприемлемым для фонового корпуса. Чтобы обрабатывать общие слова (например, «любые»), нам нужна базовая фоновая модель (например, предоставленная Google на сайте word2vec).

Есть ли способ, которым мы можем заменить модель фона, используя наш новый корпус. Просто обучение на корпусе и т. Д. Не очень хорошо работает.

Есть ли попытки объединить векторные представления из двух корпусов - общие и конкретные. Я не смог найти ни одного в моих поисках.

+0

Я не совсем уверен, что вы подразумеваете под «весом» и «смещением». Если вы хотите, чтобы ваш новый корпус имел более сильное впечатление в модели, возможно, одним из способов сделать это является самонастройка. Или, другими словами, вы тренируете какое-то предложение более одного раза. Другим решением может быть изменение скорости обучения 'model.alpha = model.alpha * bias'. Но это может быть связано с другими эффектами в зависимости от корпуса. – Mehdi

ответ

0

Давайте поговорим о gensim, так как вы отметили вопрос с ним. Вы можете загрузить ранее обучаемую модель на python с помощью gensim. Затем вы продолжите обучение. Было бы полезно?

# load from previous gensim file: 
model = gensim.models.Word2Vec.load(fname) 
# or from word2vec c format: 
# model = gensim.models.Word2Vec.load_word2vec_format('/path/vectors.bin', binary=True) 

# continue training: 
model.train(other_sentences) 
model.save(fname) 
+0

Я пробовал это уже, но добавление новых документов в корпус ведет себя так же, как если бы я тренировался по всему набору старых и новых документов вместе. Я хочу иметь больше веса (или предвзятости?) К новому набору документов. – SachMB

Смежные вопросы