2016-04-28 4 views
2

Я начал использовать Galago для поиска документов. Я хочу скопировать некоторые документы (первоначально полученные документы с любой моделью) с использованием LDA. Я предпочитаю использовать Java-версию, которая может быть интегрирована в мой код с помощью Galago. Я был бы признателен, если бы вы могли сообщить мне, что реализация LDA с открытым исходным кодом более подходит для моей цели.Использование LDA в поисковой системе Galago

Заранее благодарю вас за помощь!

ответ

0

Там очень быстрый алгоритм LDA из этого документа:

С. Арора, Р. Ge, Ю. Хальперн, Д. Mimno, А. Moitra, Д. Сонтаг, Ю. Ву, М. Чжу. Практический алгоритм моделирования темы с предоставленными гарантиями. 30-я Международная конференция по машинному обучению (ICML), 2013.

Каких есть реализация Java по одному из авторов (Д. Mimno) на GitHub здесь: https://github.com/mimno/anchor

Я пошарил с этой реализацией вкратце, и нашел хорошие и быстрые результаты. Как и все модели LDA/Topic, получение правильного количества тем может быть сложным.

+0

Привет, Джон, Спасибо вам за помощь. У меня есть только один вопрос: в выходном файле привязки поезда, указанном в файле -topics-file, есть вероятности p (topic | word) * p (word)? У меня есть этот вопрос, потому что в руководстве указано p (topic | word), но в коде я нашел wordProb * weight [topic]; Еще раз спасибо! – Magen

Смежные вопросы