2015-09-12 3 views
1
import logging 
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) 
from gensim import corpora, models, similarities 
from nltk.corpus import stopwords 
import codecs 

documents = [] 
with codecs.open("Master_File_for_Docs.txt", encoding = 'utf-8', mode= "r") as fid: 
    for line in fid: 
     documents.append(line) 
stoplist = [] 
x = stopwords.words('english') 
for word in x: 
    stoplist.append(word) 

#Removes Stopwords 
texts = [[word for word in document.lower().split() if word not in stoplist] 
for document in documents] 


dictionary = corpora.Dictionary(texts) 
corpus = [dictionary.doc2bow(text) for text in texts] 

lda = models.LdaModel(corpus, id2word=dictionary, num_topics=100) 
lda.print_topics(20) 
#corpus_lda = lda[corpus] 
#for doc in corpus_lda: 
# print(doc) 

Я запускаю Gensim для моделирования тем и пытаюсь заставить вышеуказанный код работать. Я знаю, что этот код работает, потому что мой друг побежал от макинтош компьютера, и она работала успешно, но когда я запускаю его с компьютера окна код дает мнеPython: Ошибка памяти Gensim

MemoryError 

также протоколирование, что я поставил на второй линии также не отображается на моем компьютере с Windows. Есть ли что-то в Windows, которое мне нужно исправить для того, чтобы gensim работал?

ответ

0

Я установил gensim на свой компьютер с Windows успешно, но также появляется memoryError, когда я устанавливаю номера тем больше для больших данных. потому что пространственная сложность gensim равна O (K * V), где K - номера тем, а V - размер словаря, это зависит от вашей оперативной памяти компьютера. поэтому вы можете установить номера тем в 50 или менее 100, что может решить проблему. Возможно, во-первых, вы должны проверить пример на официальном сайте генизма: http://radimrehurek.com/gensim/index.html

+0

Я не знаю, что вы имеете в виду – zack

Смежные вопросы