2013-05-17 3 views
0

Если у вас был набор для обучения, содержащий экземпляры для разных классов, и он был очень несбалансирован. Какую стратегию вы бы использовали, чтобы сбалансировать ее?Тренировочный набор Стратегии балансировки

Информация о населении реального мира: 7 классов, из которых самые мелкие счета составляют 5%.

Информация о тренировочном наборе: частоты в основном отличаются от частот популяций.

Вот два варианта:

  • Bias его частот популяции класса.
  • Представьте себе равномерное распределение.

С предубеждением я намереваюсь что-то вроде SMOTE или Cost-Sensitive Classification.

Я не уверен, какую стратегию следовать. Я также открыт для других предложений. Как бы вы оценили успех стратегии?

ответ

0

Как вы упомянули, для обучения у вас есть два варианта. Либо баланс вашего набора данных (работает, если у вас очень большой объем данных и/или небольшое количество функций, так что отбросить некоторые образцы не повлияет на обучение) или использовать разные веса для разных классов в соответствии с их частотами. Последнее, как правило, просто сделать, но зависит от выбранного вами метода и библиотеки.

Как только вы обучите ваш классификатор (с некоторыми ранее установленными вами учебными заданиями), вы можете легко обновить вероятности прогнозирования, если ваши приоритеты меняются (разные частоты в обучении и популяции). Существует отличный обзор того, как заменить предыдущую информацию, которая объясняет это лучше, чем я мог бы в короткой статье. Взгляните на Combining probabilities, раздел 3 (Замена предварительной информации).

+0

Это не совсем то, что я хотел знать. Я спрашиваю себя, должен ли оптимальный набор тренировок представлять собой распределение в качестве пуламента или должен ли он быть предвзятым для равномерного распределения. – ndrizza

+0

Извините, может быть, мой вопрос был не очень ясен. – ndrizza

+0

Я думаю, что понял ваш вопрос. Вы должны * учитывать дисбаланс: так что тренируйтесь на сбалансированном, если у вас есть достаточные данные или неуравновешенные * с большими весами для небольших классов *. Оба подхода могут работать нормально. Если вы используете сбалансированный набор, обновите прогнозы, используя частоту популяции. –

Смежные вопросы