2012-01-29 2 views
3

У меня есть набор текстовых текстовых файлов. Я хочу классифицировать другой большой набор текстовых файлов для использования в моих исследованиях. Есть ли хороший способ их сравнить?библиотека для классификации текста в java

Я думаю, что методы на основе SVM полезны, но есть ли простая и документированная библиотека для использования таких алгоритмов?

+0

[Weka] (http://www.cs.waikato.ac.nz/ml/weka/) имеет SVM, а также другие алгоритмы классификации. –

ответ

0

Я не знаю много о SVM, но LingPipe может быть вам очень полезен. link - это учебник, посвященный категоризации документов (автоматический или управляемый).

Кроме того, изучите взаимосвязанные поисковые продукты Lucene (библиотека поиска), Solr (приложение для сервера поиска) и Carrot2 (для поиска результатов «кластеризации»). Для вас должна быть интересная работа.

0

Mallet - это еще одна удивительная библиотека, в которую можно заглянуть. Он имеет хорошие инструменты командной строки, которые помогут вам начать работу и API Java, как только вы начнете интегрировать его с остальной частью вашей системы.

Смежные вопросы