2016-10-18 2 views
-2

У меня есть набор данных с 50 положительными и 950 отрицательными классами. Я использовал логистическую регрессию с SMOTE, и я получил AUC 69%, используя 10-кратное перекрестное подтверждение. Как я могу улучшить производительность?Обучение с классом несбалансированных данных

+0

Даже после устранения дисбаланса класса и кратного CV, если производительность неудовлетворительна, вероятно, модель достигла пределов объяснительной силы. Возможно, вы могли бы попробовать разные/дополнительные предиктора. Помните цитату «Если вы долго пытаетесь использовать данные, это признается». Рональд Х. Коуз – OdeToMyFiddle

+0

Это довольно открытый вопрос. В книге «Прикладное предсказательное моделирование» Куна и Джонсона есть полезная глава, которая также показывает код R. Если у вас есть доступ к исследовательской библиотеке, которая может помочь. Авторы также обсуждают здесь: http://appliedpredictivemodeling.com/blog/2014/2/1/lw6har9oewknvus176q4o41alqw2ow. – gfgm

ответ

1

Если вы не используете термин смещения, регуляризируя и устанавливая параметр регуляризации с помощью набора проверки, вы должны делать это. Помимо этого вы входите в чащу выбора модели и разработки функций.

Смежные вопросы