2015-11-05 2 views
0

Какова фактическая формула для вычисления настроений с использованием оцененной лексики. лексикон, который я использую, содержит рейтинг между диапазоном от -5 до 5. Я хочу вычислить настроения для отдельных предложений. Либо мне приходится вычислять среднее значение всех выраженных слов в предложении, либо суммировать их.Какова формула расчета настроений

ответ

5

Существует несколько методов вычисления индекса из настроенных составляющих предложений. Каждый из них основан на сравнении положительных и отрицательных слов, и каждый из них имеет свои преимущества и недостатки.

Для вашего масштаба мера центральной тенденции слов будет справедливой мерой, где знаменатель - это количество забитых слов. Это форма измерения относительной пропорциональной разницы, используемая ниже. Вы, вероятно, не хотели бы разделять оценки всех слов чувств на все слова, так как это мешает каждой фразе, сильно затронутой терминами без чувства.

Если вы не верите в то, что 11-точный рейтинг, который вы описываете, является точным, вы можете просто классифицировать его как положительный или отрицательный в зависимости от его знака. Тогда можно применить следующие методы, где вы преобразованные где каждый P и N относятся к эпизодам положительных и отрицательных закодированных настроение слов, и O является количеством всех других слов (так что общий число слов = P + N + O).

  1. Абсолютная пропорциональная разница. Границы: [0,1]

    Настроение = (Р - Н)/(Р + N + О)

    Неудобство: оценка предложения оказывает влияние не- связанных с настроением.

  2. Относительная пропорциональная разница. Границы: [-1, 1]

    Настроения = (Р - Н)/(Р + Н)

    Неудобство: оценка предложения может иметь тенденцию группироваться очень сильно вблизи (потому что они могут содержать контент в основном или исключительно как положительный, так и отрицательный).

  3. Logit шкала. Границы: [-infinity + бесконечность]

    настроений = лог (Р + 0,5) - журнал (N + 0,5)

    Это, как правило, имеют гладкие свойства и симметрично относительно нуля. 0.5 является более плавным, чтобы предотвратить log (0).

Для получения дополнительной информации, пожалуйста, см William Lowe, Kenneth Benoit, Slava Mikhaylov, and Michael Laver. (2011) "Scaling Policy Preferences From Coded Political Texts." Legislative Studies Quarterly 26(1, Feb): 123-155., где мы сравниваем их свойства для измерения правой левой идеологии, но все, что мы обсудим также относится и к положительным негативным настроениям.

+0

В абсолютной пропорциональной разнице, (1) выше: не следует читать формулу - _Сентимент - (P - N)/Num Words_, а не _ (P - N)/N_? – salvu

+1

Истина - знаменатель N означает все слова, а в других местах - отрицательный. Я исправлю. –

Смежные вопросы