Это звучит как довольно четкая задача бинарной классификации, где вы можете упростить проблему до положительной или отрицательной, а затем принять самые энтропийные решения или те, которые не достигли порога определенности, с вероятностью масса, нейтральный.
Ваше самое большое препятствие будет получать данные обучения для метода стохастического машинного обучения. Вы можете легко сделать это с легко доступной максимальной моделью энтропии, такой как Toolkit for Advanced Discriminative Modeling или Mallet. Описанные вами функции просто должны быть отформатированы на входы, используемые этими моделями.
Чтобы получить данные о тренировках, вы можете сделать какой-то платный краудсорсинг, как Механический турок Амазонки, или просто сделать это самостоятельно, может быть, с помощью друга. Для этого вам понадобится лот. Вы можете улучшить прогностическую силу своей модели в свете нехватки данных с помощью таких подходов, как активное обучение, ансамблирование или усиление, но важно как можно лучше протестировать их по сравнению с реальными данными и выбрать наилучшие результаты в практическое применение.
Если вы ищете документы для этого, вам нужно взглянуть на термин «анализ настроений» в Google Scholar. The Association for Computational Linguistics имеет множество бесплатных и полезных статей конференций и журналов, которые рассматривают проблему как с лингвистической, так и с алгоритмической точки зрения. Я также просматриваю их архивы. Удачи!
Существует аналогичный вопрос: http://stackoverflow.com/questions/933212/is-it-possible-to-guess-a-users-mood-based-on-the-structure-of-text – Helen
Даже люди имеют проблемы с определением настроения/тона в разговорах по электронной почте/sms. Если вы не говорите о разборе художественной литературы, где используются ключевые слова (примеры: «кричали» и «бушевали»). Затем у вас есть ваша работа, вырезанная для вас. – Alex