2014-01-12 5 views
0

Я пытаюсь Классифицировать текстового документа в категории, например:Java SVM Text Classification, Train & Test Files?

Документ 1: «Баскетбол это хороший спорт» ---> Категория: Спорт
Документ 2: «Мировая война 2 ..» ---> Категория: История
...

Мой gool должен создать интерфейс Java с SVM-алгоритмом!
Итак, я должен использовать SVM Java библиотеку, я нашел два:

  • SVMLIGH
  • LIBSVM

Должен ли я использовать первый один или второй?

я был сделать много исследований, и я обнаружил, что я должен сделать две вещи:

  • Я должен подготовить учебный файл.
    В SVM есть специальный формат для этого файла (пример: 1 1: 317.5)
    Но вопрос в следующем: из чего я должен генерировать этот файл? Из документов только? Или От чего-то еще?

  • У меня должен быть тестовый файл, это означает новый документ для классификации. Должен ли я преобразовать новый документ для классификации в формат файла SVM Test?

Это верно?

Прошу меня уведомить, что я действительно потерян, и я не знаю, что я должен делать! PLZ

ответ

1

да, то вы должны изменить формат SVM стандартного вашего SVM классификатора не имеют ни малейшего представления о тексте, сначала вы должны изменить ваши тексты (поезд, тест) в Standrad формата Вы можете начать свой классификатор с Weka, ВЕКОМ есть простой графический интерфейс & можно классифицировать наборы данных с несколькими щелчками когда вы получаете уверенность в вашем классификаторе & это точность, то реализовать его в Java вы можете использовать Weka в вашем Java коде слишком

PS: 1- ВЕК Текст классификации для Первый раз & Пользователей: http://www.youtube.com/watch?v=IY29uC4uem8

2- http://www.cs.waikato.ac.nz/ml/weka/

+1

Не могли бы вы сказать, любую ссылку, которая имеет Java-код для классификации документов с использованием SVM в Weka – swapnil7

Смежные вопросы