Если у вас был набор для обучения, содержащий экземпляры для разных классов, и он был очень несбалансирован. Какую стратегию вы бы использовали, чтобы сбалансировать ее?Тренировочный набор Стратегии балансировки
Информация о населении реального мира: 7 классов, из которых самые мелкие счета составляют 5%.
Информация о тренировочном наборе: частоты в основном отличаются от частот популяций.
Вот два варианта:
- Bias его частот популяции класса.
- Представьте себе равномерное распределение.
С предубеждением я намереваюсь что-то вроде SMOTE или Cost-Sensitive Classification.
Я не уверен, какую стратегию следовать. Я также открыт для других предложений. Как бы вы оценили успех стратегии?
Это не совсем то, что я хотел знать. Я спрашиваю себя, должен ли оптимальный набор тренировок представлять собой распределение в качестве пуламента или должен ли он быть предвзятым для равномерного распределения. – ndrizza
Извините, может быть, мой вопрос был не очень ясен. – ndrizza
Я думаю, что понял ваш вопрос. Вы должны * учитывать дисбаланс: так что тренируйтесь на сбалансированном, если у вас есть достаточные данные или неуравновешенные * с большими весами для небольших классов *. Оба подхода могут работать нормально. Если вы используете сбалансированный набор, обновите прогнозы, используя частоту популяции. –