2012-05-28 2 views
5

Добрый день, Я пытаюсь написать приложение сентиментального анализа в python (используя классификатор наивных байков) с целью категоризации фраз из новостей как положительных или отрицательных. И у меня проблемы с поиском подходящего корпуса для этого. Я попытался использовать «Общий запрос» (http://www.wjh.harvard.edu/~inquirer/homecat.htm), который работает нормально, но у меня есть одна большая проблема. Поскольку это список слов, не фраза список я наблюдаю следующую проблему при попытке обозначить следующее предложение:Фразовый корпус для сентиментального анализа

Он не ожидал победы.

Это предложение относится к категории положительных, что является неправильным. Причиной этого является то, что «победа» позитивна, но «не» не имеет никакого значения, поскольку «не выигрывать» - это фраза. Может ли кто-нибудь предложить либо корпус, либо работу вокруг этой проблемы? Ваша помощь и понимание сильно оценены.

+0

В качестве примечания: Ожидаете ли вы наивный байесовский работать здесь? Предположим, что все наши функции - «победить», «проиграть» и «не», а «победить» и «проиграть» появиться в равных пропорциях. Тогда либо «выиграть», либо «не выиграть» будет неправильно классифицировано. –

+0

Полагаю, именно поэтому он спрашивает об использовании фраз в качестве функций. – phs

+0

Я думаю, что он использует слова как функции для классификации фраз ... –

ответ

4

Смотрите, например: «Что хорошего и что нет: научиться классифицировать сферы отрицания для улучшения анализа настроений» по Councill, Макдональд и Великович

http://dl.acm.org/citation.cfm?id=1858959.1858969

и followups,

http://scholar.google.com/scholar?cites=3029019835762139237&as_sdt=5,33&sciodt=0,33&hl=en

eg по Моранте и др 2011

http://eprints.pascal-network.org/archive/00007634/

+0

Спасибо, Георгий. Я обязательно посмотрю. – TE0

3

В этом случае работа не изменяет смысл фразы expecteed выиграть, обращающего его. Чтобы идентифицировать это, вам нужно будет пометить предложение POS и применить отрицательное наречие не к (я думаю) глагольной фразе как отрицание. Я не знаю, есть ли корпус, который сказал бы вам, что это не будет модификатором этого типа или нет.

+1

Мне нравится ваше совсем другое использование слова «не» в конце этого. Удачи всем нашим алгоритмам, выясняя, что это отрицает! :-) –

Смежные вопросы