2016-08-22 2 views
14

Привет На прошлой неделе Facebook объявил Fasttext, который является способом классифицировать слова в ведро. Скрытое распределение Дирихле - еще один способ моделирования темы. Мой вопрос ли кто-нибудь делать какие-либо сравнения относительно за и против в них 2.Сравнение быстрого текста и LDA

Я не пробовал FastText, но здесь мало за и против для LDA на основе моего опыта

Pro

  1. Итеративная модель, имеющая опору для искры Apache

  2. Принимает кучу документа и моделирует тему.

  3. не только узнает, что этот документ говорит о том, но и выясняет соответствующие документы

  4. Apache искрой сообщество постоянно способствовать этому. Ранее они сделали это работать на mllib теперь мл библиотек

Con

  1. Игнорируемые слова должны быть определены хорошо. Они должны быть связаны с контекстом документа. Например: «документ» - это слово, которое имеет высокую частоту появления и может возглавить таблицу рекомендуемых тем, но может или не может быть релевантным, поэтому нам необходимо обновить это слово.

  2. Иногда может быть классификация не имеет значения. В приведенном ниже примере это трудно сделать вывод, что это ведро говорит о

Тема:

  1. Term: дисциплина

  2. Срок: дисциплин

  3. Срок: notestable

  4. Срок:

  5. Срок: пути

  6. Срок: chapterclosingtable

  7. Термин: метапрограммы

  8. Срок: прорывы

  9. Term: поощрениб

  10. Термин: спасение

Если кто-либо провел исследование в Fasttext, можете ли вы обновить свое обучение?

ответ

3

fastText предлагает больше, чем моделирование темы, это инструмент для генерации словесных вложений и классификации текста с использованием неглубокой нейронной сети. Авторы заявляют, что его производительность сопоставима с гораздо более сложными алгоритмами «глубокого обучения», но время обучения значительно ниже.

Плюсы:

=> Это очень легко дрессировать свою собственную модель FastText,

$ ./fasttext skipgram -input data.txt -output model

Просто укажите свой входной и выходной файл, архитектура будет использоваться, и это все , но если вы хотите немного настроить свою модель, fastText предоставляет возможность также изменять гиперпараметры.

=> При создании векторов слов fastText учитывает подчасти слов, называемых символьными n-граммами, так что похожие слова имеют схожие векторы, даже если они происходят в разных контекстах. Например, «контролируемые», «контролирующие» и «супервизор» все назначаются аналогичными векторами.

=> Предварительно обученная модель может быть использована для вычисления векторов слов для словарных слов вне словаря. Этот - мой любимый. Даже если лексика вашего тела конечна, вы можете получить вектор для почти любого слова, которое существует в мире.

=> fastText также предоставляет возможность генерации векторов для абзацев или предложений. Подобные документы можно найти, сравнив векторы документов.

=> Также была включена опция прогнозирования вероятных меток для части текста.

=> Предварительно подготовленные векторы слов для примерно 90 языков, подготовленных в Википедии, доступны в официальном репо.

Минусы:

=> Как FastText основана в командной строке, я изо всех сил, а включение это в мой проект, это не может быть проблемой для других, хотя.

=> Нет встроенного метода для поиска похожих слов или абзацев.

Для тех, кто хочет узнать больше, здесь приведены ссылки на официальные научно-исследовательские работы:

1) https://arxiv.org/pdf/1607.04606.pdf

2) https://arxiv.org/pdf/1607.01759.pdf

и ссылка на официальный репозиторий:

https://github.com/facebookresearch/fastText