2013-08-05 2 views
0

Когда я запускаю команду bin \ mallet train-themes - input input.tutorial.mallet --num-themes 40 --num-iterations 100 --optimize -interval 50 --optimize-выгорание в 200 --output государства input.gz --output-Topic-ключей inputkeys.txt --output-ДОК-темы ввода-proportion.txtтемы журнала bin/mallet получают разные результаты во всех экземплярах

Я получаю разные результаты в каждом случае выполнения команды.

Выход:

0 AJAY_DASARI 19 0,062051649928263994 39 0,03263988522238164 35 +0,03263988522238164 33 +0,03263988522238164 32 +0,03263988522238164 23 0,03263988522238164 ............... 1 BALVINDERSINGH 21 +0,06297779395704405 36 0,04805242082271569 22 +0,04805242082271569 35 +0,03312704768838733 32 0,03312704768838733 31 0,03312704768838733 30 +0,03312704768838733 26 +0,03312704768838733 24 +0,03312704768838733 15 +0,03312704768838733 13 ................

Как получить тот же результат, каждый раз, когда используется команда

ответ

1

При подготовке модели воспользуйтесь опцией --random-seed INTEGER (отличной от 0, в противном случае она использует часы), чтобы исправить случайное семя. Он должен давать вам последовательные результаты по нескольким тиражам.

Была ошибка с этой функцией, которая составляет now fixed в выпуске разработки.
См. MALLET's download page, чтобы построить самую последнюю версию.

0

Это вероятностный/статистический подход, основанный на выборке, поэтому вы не должны ожидать одинаковых оценок и одного и того же слова в строке каждый раз, когда запускаете команду ... также я считаю, что число итераций немного мало. Попробуйте установить его на 1000.

Надеюсь, это поможет.

0

Единственный способ получить один и тот же ответ каждый раз будет состоять в том, чтобы сгенерировать генератор случайных чисел одинаково.

MALLET использует выборку Gibbs для определения свойств модели темы: это метод меток Markov Chain Monte Carlo, который использует генератор случайных чисел для итеративного повторного набора некоторых параметров в модели на основе текущего значения всех остальных. В некоторых случаях вы можете усреднить количество процентов по различным итерациям, чтобы сделать его более стабильным: однако сами темы не могут быть усреднены по сравнению с итерациями из-за чего-то, называемого идентификационной информацией. См. Статью the following Griffiths and Steyvers, в частности сноску на стр. 5230.

Смежные вопросы