Я ищу инструменты на основе Java для извлечения соответствующих тегов из данной статьи. Мне нужен инструмент, который в основном попытается определить, каковы основные темы и термины, с которыми связана данная статья. Спасибо за помощь.java инструменты для извлечения релевантных ключевых слов/тегов из статей
ответ
Вы можете использовать HtmlUnit, чтобы проанализировать HTML-текст статьи и запрос для интересующих вас частей документа. Затем вы можете применить простой алгоритм вашего собственного дизайна для определения тегов/ключевых слов.
Как, например, split()
текст в пробеле, а затем подсчитывает, сколько раз каждое слово происходит. Слова, которые встречаются больше всего (игнорируя такие вещи, как «и», «», «если» и т. Д.), Являются хорошими кандидатами на ключевые слова.
Проверьте следующие ключевые слова/темы программного обеспечения извлечения/инструменты:
- Kea - ключевое слово экстракция
- Tmt - Stanford инструментарий определения темы (интеграция с Excel, скрипты, написанные на Scala), она поддерживает полуавтоматический режим определения темы (с обратной связью пользователя).
- maui
Если вы хотели бы развивать свою собственную систему обнаружения темы, вы должны смотреть на LDA implementation in mallet (ссылка на рабочий образец ЛД один на молоток странице не работает с новейшей mallet версии).
- 1. Извлечение ключевых слов Java из статей в википедии
- 2. Библиотека Java для извлечения ключевых слов из текста ввода
- 3. Как использовать обучаемую модель GloVe/word2vec для извлечения ключевых слов из статей?
- 4. Использование котла для извлечения неанглийских статей
- 5. Любые инструменты для извлечения dllImport?
- 6. Инструменты для извлечения динамических данных
- 7. Boilerpipe для извлечения неанглийских статей новостей
- 8. Метод/Инструмент для извлечения ключевых слов из списка предложений
- 9. PHP - извлечения ключевых значений из $ _POST
- 10. Инструменты для генерации понятий и графа понятий для поиска статей
- 11. Проблемы извлечения ключевых слов из GA печенье
- 12. Как использовать DBPedia для извлечения тегов/ключевых слов из содержимого?
- 13. Javascript для извлечения ключевых слов из Google cookie
- 14. Есть ли какой-либо инструмент для извлечения ключевых слов из английского текста или статьи на Java?
- 15. Удобные инструменты для извлечения данных из базы данных SQL Server
- 16. Поиск по темам и извлечение ключевых слов из статей в Википедии
- 17. Стойкие инструменты для Java
- 18. Инструменты ORM для Java
- 19. Regex не работает извлечения ключевых пар значений
- 20. Использование php для извлечения пар ключевых слов для SEO
- 21. Извлечения ключевых слов из заголовка, уместного, и окончательной математики колонки
- 22. Используйте набор ключевых слов для извлечения значений со второго листа
- 23. Что такое хорошее веб-сервис для извлечения ключевых слов?
- 24. Алгоритмы API Alchemy для извлечения понятий и ключевых слов
- 25. Что-нибудь лучше, чем рубиновая алхимия для извлечения ключевых слов?
- 26. ИОС проблема с NSDictionary извлечения значения из ключевых
- 27. Извлечение комментариев из статей новостей
- 28. Альтернативы ffmpeg как инструменты cli для видео еще извлечения?
- 29. Лучшие инструменты java для emacs
- 30. Инструменты для веб-приложений Java?
Спасибо, но меня интересует часть токенизации. Я знаю, что происходит и как это работает. Но я ищу алгоритм, который уже делает это для общего случая. – tomermes