-2
У меня есть набор данных с 50 положительными и 950 отрицательными классами. Я использовал логистическую регрессию с SMOTE, и я получил AUC 69%, используя 10-кратное перекрестное подтверждение. Как я могу улучшить производительность?Обучение с классом несбалансированных данных
Даже после устранения дисбаланса класса и кратного CV, если производительность неудовлетворительна, вероятно, модель достигла пределов объяснительной силы. Возможно, вы могли бы попробовать разные/дополнительные предиктора. Помните цитату «Если вы долго пытаетесь использовать данные, это признается». Рональд Х. Коуз – OdeToMyFiddle
Это довольно открытый вопрос. В книге «Прикладное предсказательное моделирование» Куна и Джонсона есть полезная глава, которая также показывает код R. Если у вас есть доступ к исследовательской библиотеке, которая может помочь. Авторы также обсуждают здесь: http://appliedpredictivemodeling.com/blog/2014/2/1/lw6har9oewknvus176q4o41alqw2ow. – gfgm