2011-11-27 4 views
2

Я ищу инструменты на основе Java для извлечения соответствующих тегов из данной статьи. Мне нужен инструмент, который в основном попытается определить, каковы основные темы и термины, с которыми связана данная статья. Спасибо за помощь.java инструменты для извлечения релевантных ключевых слов/тегов из статей

ответ

1

Вы можете использовать HtmlUnit, чтобы проанализировать HTML-текст статьи и запрос для интересующих вас частей документа. Затем вы можете применить простой алгоритм вашего собственного дизайна для определения тегов/ключевых слов.

Как, например, split() текст в пробеле, а затем подсчитывает, сколько раз каждое слово происходит. Слова, которые встречаются больше всего (игнорируя такие вещи, как «и», «», «если» и т. Д.), Являются хорошими кандидатами на ключевые слова.

+0

Спасибо, но меня интересует часть токенизации. Я знаю, что происходит и как это работает. Но я ищу алгоритм, который уже делает это для общего случая. – tomermes

3

Проверьте следующие ключевые слова/темы программного обеспечения извлечения/инструменты:

  • Kea - ключевое слово экстракция
  • Tmt - Stanford инструментарий определения темы (интеграция с Excel, скрипты, написанные на Scala), она поддерживает полуавтоматический режим определения темы (с обратной связью пользователя).
  • maui

Если вы хотели бы развивать свою собственную систему обнаружения темы, вы должны смотреть на LDA implementation in mallet (ссылка на рабочий образец ЛД один на молоток странице не работает с новейшей mallet версии).

Смежные вопросы