2016-03-18 2 views
1

Я использую реализацию LL для sklearn для моделирования тем. После подгонки модели я получаю некоторые темы, имеющие смысл с словами, имеющими весовые коэффициенты усиления, так что это нормально, однако я также получаю другие темы со всеми словами «весовые значения» до предшествующего (1/количество тем). Такое поведение звучит странно для меня, что это может быть причиной?Scikitlearn скрытое выделение дирихле дает пустую тему

Информация о моей установке являются:

  • Vocab из 1000 слов
  • Я передаю модель матрица ffidf сделана с помощью этого Vocab над документами более 700, каждый документ составляет от 500 до 1000 символов
  • Я попытался запустить различное число итераций эм, это не меняет результат
  • Я прошу 30 тем

Я также задаюсь вопросом, может ли случиться, что у меня слишком много тем, но если это так, не должна ли модель менять вес темы?

ответ

0

У меня был similar issue, но в моем случае это было связано с наличием всего нескольких (больших) документов. В таком сценарии метод Online Variational Bayes, который реализован в scikit-learn, имеет проблемы с поиском информационных тем (однако, методы работы с выборками на основе Gibbs).

Я думаю, что в вашем случае проблема заключается в том, что вы передаете «матрицу ffidf» (я думаю, вы имеете в виду tfidf). Насколько мне известно, LDA работает только с дискретными числами, поэтому вам необходимо передать матрицу tf (термин частота aka bag of aka document term matrix - DTM).

Смежные вопросы