Привет На прошлой неделе Facebook объявил Fasttext, который является способом классифицировать слова в ведро. Скрытое распределение Дирихле - еще один способ моделирования темы. Мой вопрос ли кто-нибудь делать какие-либо сравнения относительно за и против в них 2.Сравнение быстрого текста и LDA
Я не пробовал FastText, но здесь мало за и против для LDA на основе моего опыта
Pro
Итеративная модель, имеющая опору для искры Apache
Принимает кучу документа и моделирует тему.
не только узнает, что этот документ говорит о том, но и выясняет соответствующие документы
Apache искрой сообщество постоянно способствовать этому. Ранее они сделали это работать на mllib теперь мл библиотек
Con
Игнорируемые слова должны быть определены хорошо. Они должны быть связаны с контекстом документа. Например: «документ» - это слово, которое имеет высокую частоту появления и может возглавить таблицу рекомендуемых тем, но может или не может быть релевантным, поэтому нам необходимо обновить это слово.
Иногда может быть классификация не имеет значения. В приведенном ниже примере это трудно сделать вывод, что это ведро говорит о
Тема:
Term: дисциплина
Срок: дисциплин
Срок: notestable
Срок:
Срок: пути
Срок: chapterclosingtable
Термин: метапрограммы
Срок: прорывы
Term: поощрениб
Термин: спасение
Если кто-либо провел исследование в Fasttext, можете ли вы обновить свое обучение?