Хороший набор данных для анализа настроений?

Я работаю над анализом настроений, и я использую набор данных, приведенный по этой ссылке: http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html, и я разделил свой набор данных на 50:50. 50% используются в качестве тестовых образцов, а 50% используются в качестве образцов поезда и характеристик, извлеченных из образцов поездов, и выполняют классификацию с использованием классификатора Weka, но моя точность предсказания составляет около 70-75%.Хороший набор данных для анализа настроений?

Может кто-нибудь предложить некоторые другие наборы данных, которые могут помочь мне увеличить результат - в качестве моих функций я использовал unigram, bigram и POStags.

источник

2014-07-07 user3512562

Вы можете попробовать этот https://www.kaggle.com/data/36745#latest-205286 – Seremonia

Есть много источников, чтобы получить анализ настроений набора данных:

огромного ngrams набора данных от Google storage.googleapis.com/books/ngrams/books/datasetsv2.html
http://www.sananalytics.com/lab/twitter-sentiment/
http://inclass.kaggle.com/c/si650winter11/data
http://nlp.stanford.edu/sentiment/treebank.html
или вы можете посмотреть в этом глобальный ML набор данные хранилище: https://archive.ics.uci.edu/ml

В любом случае, это не значит, что это поможет вам получить лучшую точность для вашего текущего набора данных, потому что корпус может сильно отличаться от вашего набора данных. Помимо сокращения процента тестирования и обучения, вы можете: протестировать другие классификаторы или точно настроить все гиперпараметры с помощью полуавтоматической обертки, такой как CVParameterSelection или GridSearch, или даже auto-weka, если она подходит.

Очень редко использовать 50/50, 80/20 довольно часто встречающееся соотношение. Лучшей практикой является использование: 60% для обучения, 20% для перекрестной проверки, 20% для тестирования.

источник

2014-07-07 21:55:10 doxav

, как вы сказали, если я уменьшу поезд% .it повлияет на процесс обучения. Это означает, что обучение от меньших образцов будет hard.also, если я увеличиваю поезд%, это вызовет переобучение ... вот почему я взял соотношение 50: 5). – user3512562

Очень редко используется 50/50, 80/20 - довольно распространенное соотношение. Лучшей практикой является использование: 60% для обучения, 20% для перекрестной проверки, 20% для тестирования. PS: Я просто помню об этом огромном наборе данных ngram из google http://storage.googleapis.com/books/ngrams/books/datasetsv2.html – doxav

Ниже представлено более 1 578 627 классифицированных наборов данных http://thinknook.com/wp -content/uploads/2012/09/Sentiment-Analysis-Dataset.zip или http://ai.stanford.edu/~amaas/data/sentiment/ –

Хороший набор данных для анализа настроений?

ответ

Смежные вопросы