Gensim's official tutorial явно заявляет, что можно продолжить обучение (загруженной) модели. Я знаю, что согласно документации невозможно продолжить обучение модели, загруженной из формата word2vec
. Но даже когда вы генерируете модель с нуля, а затем пытается вызвать метод train
, невозможно получить доступ к вновь созданным меткам для экземпляров LabeledSentence
, предоставленных в train
.Продолжить обучение модели Doc2Vec
>>> sentences = [LabeledSentence(['first', 'sentence'], ['SENT_0']), LabeledSentence(['second', 'sentence'], ['SENT_1'])]
>>> model = Doc2Vec(sentences, min_count=1)
>>> print(model.vocab.keys())
dict_keys(['SENT_0', 'SENT_1', 'sentence', 'first', 'second'])
>>> sentence = LabeledSentence(['third', 'sentence'], ['SENT_2'])
>>> model.train([sentence])
>>> print(model.vocab.keys())
# At this point I would expect the key 'SENT_2' to be present in the vocabulary, but it isn't
dict_keys(['SENT_0', 'SENT_1', 'sentence', 'first', 'second'])
Возможно ли продолжить обучение модели Doc2Vec в Gensim новыми предложениями? Если да, то как это можно достичь?