Я учусь Doc2Vec
модель из gensim
библиотеки и использовать его следующим образом:Gensim Doc2Vec Исключение AttributeError: «ул» объект имеет не имеет атрибута «слова»
class MyTaggedDocument(object):
def __init__(self, dirname):
self.dirname = dirname
def __iter__(self):
for fname in os.listdir(self.dirname):
with open(os.path.join(self.dirname, fname),encoding='utf-8') as fin:
print(fname)
for item_no, sentence in enumerate(fin):
yield LabeledSentence([w for w in sentence.lower().split() if w in stopwords.words('english')], [fname.split('.')[0].strip() + '_%s' % item_no])
sentences = MyTaggedDocument(dirname)
model = Doc2Vec(sentences,min_count=2, window=10, size=300, sample=1e-4, negative=5, workers=7)
вход dirname
является путь к каталогу, который имеет, для простоты всего 2 файла, расположенных с каждым файлом, содержащим более 100 строк. Я получаю следующее исключение.
Кроме того, с print
заявлением я мог видеть, что итератор итерации Адресной книги 6 раз. Почему это так?
Любая помощь будет оценена по достоинству.
Одна вещь, разве вы не хотите, если бы не в секундах? Прямо сейчас ваши предложения содержат только стоп-слова – datawrestler
Да, это ошибка, я исправил ее, но по-прежнему сохраняется та же проблема. –