Weka POS тегирование + токенизация

Я новичок в Weka. Я пытаюсь сентиментально классифицировать обзоры фильмов. Дело в том, что я могу понять StringToWord Vector, который токенизирует и связывает вхождения слов. Я хочу добавить теги частей речи также в словарь атрибутов, но я зацикливаюсь на том, как это сделать?Weka POS тегирование + токенизация

Кто-нибудь пробовал это раньше?

Пожалуйста, вы можете мне помочь?

P.S. Я использую OpenNLP для маркировки POS и Weka J48 классификатор !!

источник

2016-06-28 Harish Gontu

Вы загрузили текстовый файл, а затем обозначили его в Weka? –

Yup, я сделал. Я использовал класс TextDirectoryLoader для доступа к моим данным в формате экземпляров и StringToWordVector или tokenization. Теперь я не могу понять, как добавить теги POS для каждого токенированного атрибута? Я также пробовал подсчет слов вхождения самостоятельно и создал файл ARFF самостоятельно, но он дал мне ошибку IOException преждевременный конец строки ... –

проб и ошибок подход:

ли что-то вроде записывать данные POStagged в текстовый файл, а затем сделать word2vec. Затем проверьте расстояние между словом и POStag, ближайший - это POS?

Тогда возникла бы проблема, подобная смежным тегам, расстояние могло бы быть таким же!

Или вы можете использовать RegEx после этого, определенно стоит попробовать.

Но сделайте первый и разделите результаты! :)

источник

2016-07-15 00:51:21 Nuwanda

Weka POS тегирование + токенизация

ответ

Смежные вопросы