Я собираюсь начать проект, когда моя конечная цель - классифицировать короткие тексты на классы: «может быть заинтересована в посещении места X»: «не заинтересован или нейтрален». Место описывается набором ключевых слов (например, питание или типы миль, например «китайская еда»). Поэтому в идеале мне нужен какой-то подход к моделированию желания пользователя, основанный на анализе короткого текста, а затем классифицировать на основе оценки желания или вероятности желания - существует ли какое-либо состояние в этой области? СпасибоКраткая классификация текста
ответ
Эта проблема точно такая же, как анализ чувств текстов. Но вместо традиционной бинарной классификации у вас, похоже, есть «нейтральное» мнение. Современный анализ настроений сильно зависит от домена. Например, методы, которые преуспели в классификации фильмов, также не работают на коммерческих продуктах.
Кроме того, даже выбор функции сильно зависит от домена. Например, униграммы хорошо работают для классификации фильмов, но сочетание униграмм и биграмм лучше подходит для классификации твиттер-текстов.
Мой лучший совет - «поиграть» с различными функциями. Поскольку вы смотрите на короткие тексты, твиттер, вероятно, является хорошим мотивационным примером. Я бы начал с униграмм и биграмм в качестве моих функций. Точный алгоритм не очень важен. SVM обычно очень хорошо работает с правильной настройкой параметров. Используйте небольшое количество удерживаемых данных для настройки этих параметров, прежде чем экспериментировать с большими наборами данных.
Более интересной частью этой проблемы является рейтинг! А «оценка чистоты», который недавно использовал для этой цели в следующих работах (и я бы сказал, что они довольно внедренный):
- Sentiment обобщению: оценка и изучение предпочтений пользователя. Лерман, Блэр-Голденсон и Макдональд. EACL. 2009.
- Жизнеспособность лексиконов полярности, полученных из Интернета. Великович, Блэр-Голденсон, Ханнан и Макдональд. NAACL. 2010.
- 1. Классификация с классификатором Weka + NaiveBayes + Классификация текста
- 2. Классификация неконтролируемого текста
- 3. Классификация текста с нейронной сетью
- 4. неконтролируемая классификация текста с php
- 5. Классификация текста и тематическое моделирование
- 6. Классификация текста без машинного обучения
- 7. Краткая Условная "?"
- 8. Как GATE обрабатывает машинное обучение (классификация текста)?
- 9. Weka, Классификация текста в файле arff
- 10. TensorFlow - классификация текста с использованием нейронных сетей
- 11. Классификация основного текста с Python и NLTK
- 12. классификация нескольких ярлыков для разного текста
- 13. Основная классификация текста с Weka в Java
- 14. Наивная заливка текста классификация лапласа сглаживание
- 15. Текстовая классификация извлекает теги из текста
- 16. Классификация текста в Twitter По полу
- 17. Логистическая регрессия Биграмматическая классификация текста с Patsy
- 18. Объединить различные типы функций (Классификация текста)
- 19. многослотовая классификация для текста с scikit learn
- 20. Scikit Naive Bayes Классификация для текста
- 21. Классификация наивных заливов для NO text-классификация
- 22. Краткая версия simplexml/xpath?
- 23. Tcl Краткая справочная информация
- 24. Краткая информация заголовка DNG?
- 25. Краткая программа ASP.NET Date
- 26. Краткая идея о сервлетах
- 27. Краткая версия редактора
- 28. Элегантность/Краткая сценаристская работа
- 29. Краткая .asp code
- 30. краткая Угловая форма проверки