Когда я прочитал Дерево принятия решений в Scikit узнать, я нахожу:О том, как сбалансировать несбалансированные данные
Баланс набор данных перед тренировкой, чтобы предотвратить дерево от того смещена в сторону классов, которые являются доминирующими. Балансировка классов может быть выполнена путем отбора равного количества выборок из каждого класса или предпочтительно путем нормализации суммы весов выборки (sample_weight) для каждого класса с тем же значением.
В ссылке: http://scikit-learn.org/stable/modules/tree.html
Я смущен.
(1)
балансировка класса может быть сделана путем отбора проб равного количества образцов из каждого класса
Если я, как это, я должен использовать добавить правильный вес образца для каждый образец в каждом классе (или добавить образец класса ...).
Например, если у меня есть два класса: А и В с числом образцов
A: 100 B: 10000
Могу ли я вход 10000 выборок для каждого и установить вес:
входные образцы A: 10000, входные образцы B: 10000
вес: 0,01, вес B: 1 .0
(2)
Но это все еще сказал:
предпочтительно путем нормализации сумма весов выборки (sample_weight) для каждого класса в то же значение
Я полностью смутил его. Имеет ли это значит, я должен вход 100 образцов А и 10000 образцов B затем установить вес:
входные образцы A: 100, входные образцы B: 10000
вес: 1,0, вес B: 1.0
Но, похоже, я ничего не сделал для баланса несбалансированных данных.
Какой способ лучше, и какой смысл второго пути в изучении Scikit? Может ли кто-нибудь помочь мне прояснить это?
Большое спасибо. Означает ли представленная и представленная группа под менее выборкой и группой образцов? – insomnia
thats правильный. просто другой жаргон. – abhiieor
И я смущен для ваших первых трех способов, почему бы вам не добавить вес? И четвертый способ, почему мы можем настроить вес? Я всегда думал, что вес * количество наблюдений = разные группы, это постоянный предел, который нам всегда нужен. – insomnia