2014-12-08 3 views
1

последние части кода:Как сохранить распределение поездов на обученных моделях LDA по gensim?

lda = models.LdaModel(corpus_tfidf, id2word = dic, num_topics = 64) 
corpus_lda = lda[corpus_tfidf] 

Я задаюсь вопросом, как сохранить corpus_lda для дальнейшего использования?

+0

Вы хотите сохранить модель 'lda'? Я спрашиваю, потому что в вашем коде 'corpus_lda' содержится распределение тем в учебном документе. –

+0

Я знаю, что corpus_lda содержит распределение тем, это то, что я хочу сохранить, я хочу сохранить дистрибутивы, поскольку 2173 * 64 (2173 - это номер моих учебных документов и 64 - это темы), но не знаю, как сэкономить Это. –

+1

Быстрое решение было бы использовать модуль [cPickle] (https://docs.python.org/2/library/pickle.html#module-cPickle) и выгрузить матрицу распределения тем в файл, а затем использовать тот же модуль для загрузки матрицы, когда вы хотите ее использовать. –

ответ

2

Gensim имеет функции для записи корпусов на диск:

from Gensim import corpora 
corpora.MmCorpus.serialize('pathandfilename.mm', corpus_lda) 

Для загрузки сохраненного использования мозолистого:

corpus_lda = corpora.MmCorpus('pathandfilename.mm') 

Есть аналогичные функции для сохранения моделей (проверьте учебники или references). Имеются разные форматы корпуса, я считаю, что матричный рынок использовался в качестве стандартного формата, используемого Gensim, но в последнее время был добавлен формат indexedcorpus, который имеет некоторые дополнительные функции (индекс, как вы могли догадаться).

+0

Большое спасибо! –

Смежные вопросы