Я жду, когда мое членство в списке рассылки будет подтверждено, поэтому я подумал, что попрошу его здесь, возможно, немного ускорить все.Иерархический LDA ест всю доступную память и никогда не заканчивается
Я пишу магистерскую диссертацию по теме моделирования и использую реализации Mallet LDA и HLDA.
Я работаю над корпусом более 4 миллионов документов. В то время как LDA (ParallelTopicModel
) обрабатывает набор данных прилично, и я не сталкиваюсь с какими-либо проблемами с этим, HLDA не может идти дальше, скажем, 5-6 итераций, прежде чем заполнять всю доступную память (я даже запускал программу с 90 г ОЗУ). На небольших наборах данных (10-20 тыс. Документов) он работает.
Вот как я тренируюсь модель:
HierarchicalLDA hierarchicalLDAModel = new HierarchicalLDA(); hierarchicalLDAModel.initialize(trainInstances, testInstances, numLevels, new Randoms()); hierarchicalLDAModel.estimate(numIterations);
Я бы с удовольствием предоставить любую другую информацию, вам может понадобиться для устранения неполадок, просто комментарий и дайте мне знать.
спасибо, что заблаговременно!
Список рассылки устарел, SO - гораздо лучший форум для этого типа вопросов. –