2012-04-23 9 views
1

Я собираюсь начать проект, когда моя конечная цель - классифицировать короткие тексты на классы: «может быть заинтересована в посещении места X»: «не заинтересован или нейтрален». Место описывается набором ключевых слов (например, питание или типы миль, например «китайская еда»). Поэтому в идеале мне нужен какой-то подход к моделированию желания пользователя, основанный на анализе короткого текста, а затем классифицировать на основе оценки желания или вероятности желания - существует ли какое-либо состояние в этой области? СпасибоКраткая классификация текста

ответ

5

Эта проблема точно такая же, как анализ чувств текстов. Но вместо традиционной бинарной классификации у вас, похоже, есть «нейтральное» мнение. Современный анализ настроений сильно зависит от домена. Например, методы, которые преуспели в классификации фильмов, также не работают на коммерческих продуктах.

Кроме того, даже выбор функции сильно зависит от домена. Например, униграммы хорошо работают для классификации фильмов, но сочетание униграмм и биграмм лучше подходит для классификации твиттер-текстов.

Мой лучший совет - «поиграть» с различными функциями. Поскольку вы смотрите на короткие тексты, твиттер, вероятно, является хорошим мотивационным примером. Я бы начал с униграмм и биграмм в качестве моих функций. Точный алгоритм не очень важен. SVM обычно очень хорошо работает с правильной настройкой параметров. Используйте небольшое количество удерживаемых данных для настройки этих параметров, прежде чем экспериментировать с большими наборами данных.

Более интересной частью этой проблемы является рейтинг! А «оценка чистоты», который недавно использовал для этой цели в следующих работах (и я бы сказал, что они довольно внедренный):

  • Sentiment обобщению: оценка и изучение предпочтений пользователя. Лерман, Блэр-Голденсон и Макдональд. EACL. 2009.
  • Жизнеспособность лексиконов полярности, полученных из Интернета. Великович, Блэр-Голденсон, Ханнан и Макдональд. NAACL. 2010.
Смежные вопросы