2013-07-15 2 views
0

Я пытаюсь создать Java-приложение, которое готовит модель SVM для набора текстовых документов и классифицирует новые документы на основе модели. Я много огляделся на пакеты в java, которые могут это сделать, и нашли реализацию libsvm лучшими.SVM для классификации текста с использованием библиотеки LIBSVN для java

1) Мой учебный ввод представляет собой текстовый файл с текстом документа и правильной меткой. Я понимаю, что пакет libsvm в настоящее время работает только с числовыми данными, что означает, что мне придется преобразовать текстовый файл и функции (слова) в числовую форму. Является ли TF-IDF хорошим способом сделать это? Есть ли Java-библиотека, которая может генерировать TF-IDF?

2) Данные должны быть поданы в модель в виде

<class label> <feature 1>:<value 1> <feature 2>:<value 2> ...... <feature n>:<value n> 

В моем случае эта функция слова в документе и является значение TF-IDF. Правильно ли моя интерпретация?

Есть ли похожие примеры, в которых используется libsvm? Я сделал некоторые поиски, но не повезло!

ответ

0

Существует несколько примеров. Вы можете проверить набор данных rcv1 на LIBSVM data set page. Это набор данных классификации документов (уже в формате TF-IDF в представлении LIBSVM). Существует множество документов по этой теме, таких как Text Categorization with Support Vector Machines by Joachims.

Смежные вопросы