Я новичок в Weka. Я пытаюсь сентиментально классифицировать обзоры фильмов. Дело в том, что я могу понять StringToWord Vector, который токенизирует и связывает вхождения слов. Я хочу добавить теги частей речи также в словарь атрибутов, но я зацикливаюсь на том, как это сделать?Weka POS тегирование + токенизация
Кто-нибудь пробовал это раньше?
Пожалуйста, вы можете мне помочь?
P.S. Я использую OpenNLP для маркировки POS и Weka J48 классификатор !!
Вы загрузили текстовый файл, а затем обозначили его в Weka? –
Yup, я сделал. Я использовал класс TextDirectoryLoader для доступа к моим данным в формате экземпляров и StringToWordVector или tokenization. Теперь я не могу понять, как добавить теги POS для каждого токенированного атрибута? Я также пробовал подсчет слов вхождения самостоятельно и создал файл ARFF самостоятельно, но он дал мне ошибку IOException преждевременный конец строки ... –