2016-12-19 4 views
1

Я жду, когда мое членство в списке рассылки будет подтверждено, поэтому я подумал, что попрошу его здесь, возможно, немного ускорить все.Иерархический LDA ест всю доступную память и никогда не заканчивается

Я пишу магистерскую диссертацию по теме моделирования и использую реализации Mallet LDA и HLDA.

Я работаю над корпусом более 4 миллионов документов. В то время как LDA (ParallelTopicModel) обрабатывает набор данных прилично, и я не сталкиваюсь с какими-либо проблемами с этим, HLDA не может идти дальше, скажем, 5-6 итераций, прежде чем заполнять всю доступную память (я даже запускал программу с 90 г ОЗУ). На небольших наборах данных (10-20 тыс. Документов) он работает.

Вот как я тренируюсь модель:

HierarchicalLDA hierarchicalLDAModel = new HierarchicalLDA(); hierarchicalLDAModel.initialize(trainInstances, testInstances, numLevels, new Randoms()); hierarchicalLDAModel.estimate(numIterations);

Я бы с удовольствием предоставить любую другую информацию, вам может понадобиться для устранения неполадок, просто комментарий и дайте мне знать.

спасибо, что заблаговременно!

+0

Список рассылки устарел, SO - гораздо лучший форум для этого типа вопросов. –

ответ

0

hLDA - непараметрическая модель, что означает, что количество параметров расширяется с размером данных. В настоящее время нет способа применить максимальное количество тем. Вы можете наиболее эффективно ограничить количество тем, увеличивая параметр сглаживания слова-типа (НЕ параметры CRP). Если этот параметр мал, модель предпочитает создавать новую тему, а не добавлять маловероятное слово к существующей теме.

+0

благодарим вас за ответ профессора! , чтобы уточнить, что я правильно понял вас - единственный способ, который может повлиять на голод для памяти, - это настройка eta? Я постараюсь запустить эксперименты и сообщим об итогах – wojtuch

+0

К сожалению, попробовав разные значения для eta, в моем случае это не помогает - каждый раз, когда программа вылетает через пару часов и несколько (3-6) итераций – wojtuch

Смежные вопросы