У меня есть набор из 20000 учебных примеров, по которым я хочу сделать двоичную классификацию. Проблема заключается в том, что набор данных сильно несбалансирован, и только около 1000 находятся в положительном классе. Я пытаюсь использовать xgboost (в R) для выполнения своего предсказания.Xgboost, занимающийся несбалансированными классификационными данными
Я пробовал передискретизировать и понижать уровень и независимо от того, что я делаю, так или иначе предсказания всегда приводят к классифицированию всего, как к классу большинства.
Я попытался прочитать эту статью о том, как настроить параметры в xgboost. https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/
Но это только упоминает, какие параметры помогают с несбалансированными наборами данных, но не как их настроить.
Я был бы признателен, если бы у кого-либо был совет по настройке параметров обучения xgboost для обработки несбалансированных наборов данных, а также по тому, как создать набор валидаций для таких случаев.
Это может быть полезно http://stats.stackexchange.com/questions/171043/how-to-tune-hyperparameters-of-xgboost-trees – gfgm