Есть много других факторов ... но важный (при определении подходящего соотношения и объема данных для обучения) являются ожидаемым распределением каждой категории сообщений (положительный, нейтральный, отрицательный) в реальном мире. Эффективно, хороший базовый для обучающего множества (и набор элементов управления) является
- [качественно] в качестве представителя как можно больше всего «населения»
- [количественно] достаточно велик, что измерения, выполненные из таких наборы статистически значимы.
Влияние [относительной] численности определенной категории сообщений в учебном наборе трудно определить; это в любом случае меньший фактор - или, скорее, очень чувствительный к другим факторам. Улучшения в точности классификатора в целом или в отношении конкретной категории обычно связаны скорее с конкретной реализацией классификатора (например, является ли байесовский, то, что являются токенами, устраняется шумовой токен, является близость фактор, мы используем bi-граммы и т. д.), чем чисто количественный характеристики обучающего набора.
В то время как выше, как правило, фактические, но умеренно полезен для выбора размера и состава обучающего набора, есть способов определения, постфактум, когда адекватный размер и состав данных для обучения были поставлен.
Одним из способов достижения этого является введение набора управления, то есть одного, помеченного вручную, но не являющегося частью учебного набора, и для измерения для различных тестовых прогонов с различными подмножествами обучающего набора, отзыва и точности, полученных для каждого категории (или некоторых аналогичных измерений точности), для чего классификация контрольного множества. Когда эти измерения не улучшаются или не ухудшаются, помимо статистически репрезентативных, размер и состав набора для обучения [sub], вероятно, являются правильными (если это не слишком сложный набор :-(, но это совсем другая проблема. ..)
Этот подход подразумевает, что используется учебный комплект, который может быть в 3 - 5 раз больше необходимого для обучения подмножества, так что можно произвольно (внутри каждой категории) построить множество разных подмножеств для различные тесты.
У вас есть ссылка, на которую я могу ссылаться, которая может служить мне примером для вычисления оценки - или теории, стоящей за ней? –
Если вы google для «линейной регрессии», вы найдете множество сайтов, посвященных этому. Возможно, вы также захотите проверить этот опрос о анализе настроений (официальное название поля почти целиком посвящено проблеме вычисления того, насколько позитивным или негативным является текст): http://www.cs.cornell.edu/home/ llee/opinion-mining-sentiment-analysis-survey.html. Книга свободно доступна в Интернете. – ferdystschenko