Я пытаюсь создать Java-приложение, которое готовит модель SVM для набора текстовых документов и классифицирует новые документы на основе модели. Я много огляделся на пакеты в java, которые могут это сделать, и нашли реализацию libsvm лучшими.SVM для классификации текста с использованием библиотеки LIBSVN для java
1) Мой учебный ввод представляет собой текстовый файл с текстом документа и правильной меткой. Я понимаю, что пакет libsvm в настоящее время работает только с числовыми данными, что означает, что мне придется преобразовать текстовый файл и функции (слова) в числовую форму. Является ли TF-IDF хорошим способом сделать это? Есть ли Java-библиотека, которая может генерировать TF-IDF?
2) Данные должны быть поданы в модель в виде
<class label> <feature 1>:<value 1> <feature 2>:<value 2> ...... <feature n>:<value n>
В моем случае эта функция слова в документе и является значение TF-IDF. Правильно ли моя интерпретация?
Есть ли похожие примеры, в которых используется libsvm? Я сделал некоторые поиски, но не повезло!