2015-02-16 5 views
0

Я пытаюсь создать классификатор для определения субъективности. У меня есть текстовые файлы, помеченные субъективными и объективными. Я немного потерял концепцию создания функций из этих данных. Я нашел лексику субъективного и объективного тега. Одна вещь, которую я могу сделать, - создать функцию наличия слов, содержащихся в соответствующем словаре. Возможно, количество слов присутствует в субъективном и объективном словаре. После этого я намерен использовать наивный Байес или SVM для разработки моделиОсобенности Векторы для построения классификатора для определения субъективности

Моей проблема состоит в следующем

  1. мой подход правильный?
  2. Могу ли я создать дополнительные функции? Если возможно, предложите некоторые или указать мне какую-нибудь бумагу или ссылку
  3. Могу ли я сделать какой-то тест, например, chi -sq и т. Д., Чтобы определить эффективные слова из словаря?

ответ

2

Вы в основном на правильном пути. Я бы попытался применить классификатор с уже имеющимися функциями и посмотреть, насколько хорошо он будет работать, прежде чем делать что-либо еще.

На самом деле лучший способ улучшить вашу работу - это google для документов по классификации субъективности и прочитать их (есть довольно number of them). Например, в this one перечислены типичные функции для этой задачи.

И да хи-квадрат может быть использован для построения словарей для классификации текста (другие часто используемые методы TD * IDF, точечно Муталь информации и LDA)

Кроме того, в последнее время новые нейронные сети на основе методов классификации текстов такие как paragraph vector и dynamic convolutional neural networks with k-max pooling продемонстрировали самые современные результаты анализа сентиментальности, поэтому они, вероятно, должны быть хорошими для классификации субъективности.

+0

благодарит @denis за то, что указал мне нужные ресурсы и подтвердил подход. Это мне очень поможет –

Смежные вопросы