Добрый день, Я пытаюсь написать приложение сентиментального анализа в python (используя классификатор наивных байков) с целью категоризации фраз из новостей как положительных или отрицательных. И у меня проблемы с поиском подходящего корпуса для этого. Я попытался использовать «Общий запрос» (http://www.wjh.harvard.edu/~inquirer/homecat.htm), который работает нормально, но у меня есть одна большая проблема. Поскольку это список слов, не фраза список я наблюдаю следующую проблему при попытке обозначить следующее предложение:Фразовый корпус для сентиментального анализа
Он не ожидал победы.
Это предложение относится к категории положительных, что является неправильным. Причиной этого является то, что «победа» позитивна, но «не» не имеет никакого значения, поскольку «не выигрывать» - это фраза. Может ли кто-нибудь предложить либо корпус, либо работу вокруг этой проблемы? Ваша помощь и понимание сильно оценены.
В качестве примечания: Ожидаете ли вы наивный байесовский работать здесь? Предположим, что все наши функции - «победить», «проиграть» и «не», а «победить» и «проиграть» появиться в равных пропорциях. Тогда либо «выиграть», либо «не выиграть» будет неправильно классифицировано. –
Полагаю, именно поэтому он спрашивает об использовании фраз в качестве функций. – phs
Я думаю, что он использует слова как функции для классификации фраз ... –