Сравнение быстрого текста и LDA

Привет На прошлой неделе Facebook объявил Fasttext, который является способом классифицировать слова в ведро. Скрытое распределение Дирихле - еще один способ моделирования темы. Мой вопрос ли кто-нибудь делать какие-либо сравнения относительно за и против в них 2.Сравнение быстрого текста и LDA

Я не пробовал FastText, но здесь мало за и против для LDA на основе моего опыта

Pro

Итеративная модель, имеющая опору для искры Apache
Принимает кучу документа и моделирует тему.
не только узнает, что этот документ говорит о том, но и выясняет соответствующие документы
Apache искрой сообщество постоянно способствовать этому. Ранее они сделали это работать на mllib теперь мл библиотек

Con

Игнорируемые слова должны быть определены хорошо. Они должны быть связаны с контекстом документа. Например: «документ» - это слово, которое имеет высокую частоту появления и может возглавить таблицу рекомендуемых тем, но может или не может быть релевантным, поэтому нам необходимо обновить это слово.
Иногда может быть классификация не имеет значения. В приведенном ниже примере это трудно сделать вывод, что это ведро говорит о

Тема:

Term: дисциплина
Срок: дисциплин
Срок: notestable
Срок:
Срок: пути
Срок: chapterclosingtable
Термин: метапрограммы
Срок: прорывы
Term: поощрениб
Термин: спасение

Если кто-либо провел исследование в Fasttext, можете ли вы обновить свое обучение?

источник

2016-08-22 Nabs

fastText предлагает больше, чем моделирование темы, это инструмент для генерации словесных вложений и классификации текста с использованием неглубокой нейронной сети. Авторы заявляют, что его производительность сопоставима с гораздо более сложными алгоритмами «глубокого обучения», но время обучения значительно ниже.

Плюсы:

=> Это очень легко дрессировать свою собственную модель FastText,

$ ./fasttext skipgram -input data.txt -output model

Просто укажите свой входной и выходной файл, архитектура будет использоваться, и это все , но если вы хотите немного настроить свою модель, fastText предоставляет возможность также изменять гиперпараметры.

=> При создании векторов слов fastText учитывает подчасти слов, называемых символьными n-граммами, так что похожие слова имеют схожие векторы, даже если они происходят в разных контекстах. Например, «контролируемые», «контролирующие» и «супервизор» все назначаются аналогичными векторами.

=> Предварительно обученная модель может быть использована для вычисления векторов слов для словарных слов вне словаря. Этот - мой любимый. Даже если лексика вашего тела конечна, вы можете получить вектор для почти любого слова, которое существует в мире.

=> fastText также предоставляет возможность генерации векторов для абзацев или предложений. Подобные документы можно найти, сравнив векторы документов.

=> Также была включена опция прогнозирования вероятных меток для части текста.

=> Предварительно подготовленные векторы слов для примерно 90 языков, подготовленных в Википедии, доступны в официальном репо.

Минусы:

=> Как FastText основана в командной строке, я изо всех сил, а включение это в мой проект, это не может быть проблемой для других, хотя.

=> Нет встроенного метода для поиска похожих слов или абзацев.

Для тех, кто хочет узнать больше, здесь приведены ссылки на официальные научно-исследовательские работы:

1) https://arxiv.org/pdf/1607.04606.pdf

2) https://arxiv.org/pdf/1607.01759.pdf

и ссылка на официальный репозиторий:

https://github.com/facebookresearch/fastText

источник

2017-04-21 06:18:10