2009-06-15 2 views
6

Я ищу, чтобы применить оценки (положительные, отрицательные или нейтральные) к коротким фразам текста. Если не разобрать смайлики и сделать предположения на основе их использования, я не уверен, что еще попробовать. Может ли кто-нибудь предоставить примеры, исследовательские статьи, статьи и т. Д., Которые берут на себя более лексический анализ этой проблемы.Определение «настроения» текстовых фраз посредством лексического анализа

Я думаю, что такие вещи, как использование наречия, неправильное использование/повторение пунктуации, ошибки правописания/грамматики, могут быть достойными индикаторами настроения автора в почти двоичном смысле (хорошем или плохом).

+0

Существует аналогичный вопрос: http://stackoverflow.com/questions/933212/is-it-possible-to-guess-a-users-mood-based-on-the-structure-of-text – Helen

+0

Даже люди имеют проблемы с определением настроения/тона в разговорах по электронной почте/sms. Если вы не говорите о разборе художественной литературы, где используются ключевые слова (примеры: «кричали» и «бушевали»). Затем у вас есть ваша работа, вырезанная для вас. – Alex

ответ

3

Это звучит как довольно четкая задача бинарной классификации, где вы можете упростить проблему до положительной или отрицательной, а затем принять самые энтропийные решения или те, которые не достигли порога определенности, с вероятностью масса, нейтральный.

Ваше самое большое препятствие будет получать данные обучения для метода стохастического машинного обучения. Вы можете легко сделать это с легко доступной максимальной моделью энтропии, такой как Toolkit for Advanced Discriminative Modeling или Mallet. Описанные вами функции просто должны быть отформатированы на входы, используемые этими моделями.

Чтобы получить данные о тренировках, вы можете сделать какой-то платный краудсорсинг, как Механический турок Амазонки, или просто сделать это самостоятельно, может быть, с помощью друга. Для этого вам понадобится лот. Вы можете улучшить прогностическую силу своей модели в свете нехватки данных с помощью таких подходов, как активное обучение, ансамблирование или усиление, но важно как можно лучше протестировать их по сравнению с реальными данными и выбрать наилучшие результаты в практическое применение.

Если вы ищете документы для этого, вам нужно взглянуть на термин «анализ настроений» в Google Scholar. The Association for Computational Linguistics имеет множество бесплатных и полезных статей конференций и журналов, которые рассматривают проблему как с лингвистической, так и с алгоритмической точки зрения. Я также просматриваю их архивы. Удачи!

0

Это звучит как действительно интересная идея - мне было бы интересно узнать, что из этого получилось.

Я бы сказал, что пунктуация один индикатор можно использовать ...

  • ? - вопрос
  • !?!? (или какой-либо вариант) Неверно
  • ! с фразами вроде глупо, идиотски, и т.д ... - Гнев
  • ... - Нерешительность, сарказм

Также можно попробовать и подобрать на общих аббревиатур, как ...

  • LOL - Laughing (положительный)
  • WTF, OMG - Неверие, ударная
  • ИМО - мышление, объясняя

Это явно довольно сложная вещь вы хотите сделать, но это звучит очень интересно.

2

Ну, latent semantic analysis (есть paper), похоже, как ближайшая хорошо зарекомендовавшая себя область исследования, о чем вы говорите. Это менее «ориентированное на ценность» и более сосредоточенное на больших документах, но все же может иметь некоторое отношение к вашей проблеме.