Я пытаюсь использовать Doc2Vec для чтения в файл, который представляет собой список предложений, как это:Использование Doc2Vec gensim для получения приговор векторов
The elephant flaps its large ears to cool the blood in them and its body.
A house is a permanent building or structure for people or families to live in.
...
То, что я хочу сделать, это два файла, один с уникальные слова из этих предложений и другие, которые имеют один соответствующий вектор на строку (если нет векторного вывода, я хочу вывести вектор из 0)
Я получаю вокальный код с моим кодом, но я не могу показаться выяснить, как распечатать отдельные векторы предложения. Я просмотрел документацию и не нашел большой помощи. Вот как выглядит мой код до сих пор.
sentences = []
for uid, line in enumerate(open(filename)):
sentences.append(LabeledSentence(words=line.split(), labels=['SENT_%s' % uid]))
model = Doc2Vec(alpha=0.025, min_alpha=0.025)
model.build_vocab(sentences)
for epoch in range(10):
model.train(sentences)
model.alpha -= 0.002
model.min_alpha = model.alpha
sent_reg = r'[SENT].*'
for item in model.vocab.keys():
sent = re.search(sent_reg, item)
if sent:
continue
else:
print item
###I'm not sure how to produce the vectors from here and this doesn't work##
sent_id = 0
for item in model:
print model["SENT_"+str(sent_id)]
sent_id += 1
вы пробовали настройки min_count = 1? Doc2Vec (min_count = 1) – slizb