2015-11-07 6 views
0

У меня очень несбалансированные данные, и цель - классификация. Во-первых, я хочу проверить недочеты в классе мажоритов. Класс 1 с 600, класс2 90, класс3 60 и класс4 96 выборочных данных !!!Работа с несбалансированными данными с использованием веса

Используя вес: В 2 раза кросс проверки и модели RandomForest: enter image description here

Почему используя вес, результат не лучше? Мой код: cfr = RandomForestClassifier(n_estimators=100,n_jobs=5,class_weight={1:1,2:30,3:30,4:30}) Что-то не так в моем коде? Не могли бы вы направить меня?

ответ

0

Актуальный вопрос: Какова ваша задача. Ваша задача максимизировать точность модели, даже если у вас есть огромная диспропорция классов? Если это так, вы должны указать набор тестов без подбора. Фактически вы никогда не устанавливали тестовый набор, однако в некоторых случаях вы можете добавить весы к определенным классам, чтобы сделать коррекцию для истинных приоритетов (которые могут отличаться от эмпирических) или из-за дороговизны обучения.

+0

Я попытался использовать вес. Я использую случайный лес sklearn, я не знаю, как мне найти эффективные числа для весов. Я использовал cfr = RandomForestClassifier (n_estimators = 100, n_jobs = 5, class_weight = {1: 1,2: 3,3: 3,4: 3}), но это не повлияло. Я использовал более высокие цифры для групп 2,3 и 4, как 10, 20 или даже 100. Результаты были хуже. – Talia

+0

извините, результат немного лучше или тот же – Talia

Смежные вопросы