2014-07-07 3 views
9

Я работаю над анализом настроений, и я использую набор данных, приведенный по этой ссылке: http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html, и я разделил свой набор данных на 50:50. 50% используются в качестве тестовых образцов, а 50% используются в качестве образцов поезда и характеристик, извлеченных из образцов поездов, и выполняют классификацию с использованием классификатора Weka, но моя точность предсказания составляет около 70-75%.Хороший набор данных для анализа настроений?

Может кто-нибудь предложить некоторые другие наборы данных, которые могут помочь мне увеличить результат - в качестве моих функций я использовал unigram, bigram и POStags.

+0

Вы можете попробовать этот https://www.kaggle.com/data/36745#latest-205286 – Seremonia

ответ

19

Есть много источников, чтобы получить анализ настроений набора данных:

В любом случае, это не значит, что это поможет вам получить лучшую точность для вашего текущего набора данных, потому что корпус может сильно отличаться от вашего набора данных. Помимо сокращения процента тестирования и обучения, вы можете: протестировать другие классификаторы или точно настроить все гиперпараметры с помощью полуавтоматической обертки, такой как CVParameterSelection или GridSearch, или даже auto-weka, если она подходит.

Очень редко использовать 50/50, 80/20 довольно часто встречающееся соотношение. Лучшей практикой является использование: 60% для обучения, 20% для перекрестной проверки, 20% для тестирования.

+0

, как вы сказали, если я уменьшу поезд% .it повлияет на процесс обучения. Это означает, что обучение от меньших образцов будет hard.also, если я увеличиваю поезд%, это вызовет переобучение ... вот почему я взял соотношение 50: 5). – user3512562

+1

Очень редко используется 50/50, 80/20 - довольно распространенное соотношение. Лучшей практикой является использование: 60% для обучения, 20% для перекрестной проверки, 20% для тестирования. PS: Я просто помню об этом огромном наборе данных ngram из google http://storage.googleapis.com/books/ngrams/books/datasetsv2.html – doxav

+2

Ниже представлено более 1 578 627 классифицированных наборов данных http://thinknook.com/wp -content/uploads/2012/09/Sentiment-Analysis-Dataset.zip или http://ai.stanford.edu/~amaas/data/sentiment/ –

Смежные вопросы