2010-01-13 3 views
3

Я помечаю твиттер сообщениями как положительные, отрицательные, нейтральные. Я пытаюсь оценить, есть ли какая-то логика, которую можно использовать для определения набора тренировок, какая часть сообщения должна быть положительной/отрицательной и нейтральной?Тренировочный набор - доля pos/neg/neutral предложений

Так, например, если я тренирую классификатор Naive Bayes с 1000 сообщениями Twitter, если доля pos: neg: нейтральная составляет 33%: 33%: 33% или должно быть 25%: 25%: 50%

Логически в моей голове кажется, что я тренирую (т. е. даю больше образцов для нейтральной), что система будет лучше идентифицировать нейтральные предложения, то ли они положительные или отрицательные - это правда? или мне не хватает какой-то теории здесь?

Благодаря Рахуло

ответ

3

Проблема, о которой вы говорите, известна как проблема дисбаланса. Многие алгоритмы машинного обучения плохо справляются с несбалансированными данными обучения, то есть когда экземпляры одного класса значительно превосходят числа другого класса. Прочитано this article, чтобы получить хороший обзор проблемы и как подойти к ней. Для таких методов, как наивные заливы или деревья решений, всегда полезно балансировать ваши данные каким-то образом, например.путем случайной передискретизации (поясняется в справочной статье). Я не согласен с предложением mjv о том, чтобы набор тренировок соответствовал пропорциям в реальном мире. В некоторых случаях это может быть уместно, но я уверен, что это не в вашей ситуации. Для проблемы классификации, подобной той, которую вы описываете, чем больше размеры наборов классов отличаются, тем больше алгоритмов ML будут иметь проблемы, которые правильно распознают классы. Тем не менее, вы всегда можете использовать информацию о том, какой класс является самым большим в действительности, принимая его как резерв, так что, когда доверие классификатора к определенному экземпляру невелико или этот экземпляр не может быть классифицирован вообще, вы должны назначить ему самый большой класс.

Еще одно замечание: найти положительность/отрицательность/нейтралитет в сообщениях Twitter представляется мне вопросом степени. Таким образом, это может быть просмотр как регрессия, а не проблема классификации, т. Е. Вместо схемы из трех классов вы, возможно, захотите рассчитать счет, который сообщает вам , как положительное/отрицательное сообщение.

+0

У вас есть ссылка, на которую я могу ссылаться, которая может служить мне примером для вычисления оценки - или теории, стоящей за ней? –

+0

Если вы google для «линейной регрессии», вы найдете множество сайтов, посвященных этому. Возможно, вы также захотите проверить этот опрос о анализе настроений (официальное название поля почти целиком посвящено проблеме вычисления того, насколько позитивным или негативным является текст): http://www.cs.cornell.edu/home/ llee/opinion-mining-sentiment-analysis-survey.html. Книга свободно доступна в Интернете. – ferdystschenko

1

Есть много других факторов ... но важный (при определении подходящего соотношения и объема данных для обучения) являются ожидаемым распределением каждой категории сообщений (положительный, нейтральный, отрицательный) в реальном мире. Эффективно, хороший базовый для обучающего множества (и набор элементов управления) является

  • [качественно] в качестве представителя как можно больше всего «населения»
  • [количественно] достаточно велик, что измерения, выполненные из таких наборы статистически значимы.

Влияние [относительной] численности определенной категории сообщений в учебном наборе трудно определить; это в любом случае меньший фактор - или, скорее, очень чувствительный к другим факторам. Улучшения в точности классификатора в целом или в отношении конкретной категории обычно связаны скорее с конкретной реализацией классификатора (например, является ли байесовский, то, что являются токенами, устраняется шумовой токен, является близость фактор, мы используем bi-граммы и т. д.), чем чисто количественный характеристики обучающего набора.

В то время как выше, как правило, фактические, но умеренно полезен для выбора размера и состава обучающего набора, есть способов определения, постфактум, когда адекватный размер и состав данных для обучения были поставлен.
Одним из способов достижения этого является введение набора управления, то есть одного, помеченного вручную, но не являющегося частью учебного набора, и для измерения для различных тестовых прогонов с различными подмножествами обучающего набора, отзыва и точности, полученных для каждого категории (или некоторых аналогичных измерений точности), для чего классификация контрольного множества. Когда эти измерения не улучшаются или не ухудшаются, помимо статистически репрезентативных, размер и состав набора для обучения [sub], вероятно, являются правильными (если это не слишком сложный набор :-(, но это совсем другая проблема. ..)

Этот подход подразумевает, что используется учебный комплект, который может быть в 3 - 5 раз больше необходимого для обучения подмножества, так что можно произвольно (внутри каждой категории) построить множество разных подмножеств для различные тесты.

Смежные вопросы