2016-08-24 3 views
1

Когда я прочитал Дерево принятия решений в Scikit узнать, я нахожу:О том, как сбалансировать несбалансированные данные

Баланс набор данных перед тренировкой, чтобы предотвратить дерево от того смещена в сторону классов, которые являются доминирующими. Балансировка классов может быть выполнена путем отбора равного количества выборок из каждого класса или предпочтительно путем нормализации суммы весов выборки (sample_weight) для каждого класса с тем же значением.

В ссылке: http://scikit-learn.org/stable/modules/tree.html

Я смущен.

(1)

балансировка класса может быть сделана путем отбора проб равного количества образцов из каждого класса

Если я, как это, я должен использовать добавить правильный вес образца для каждый образец в каждом классе (или добавить образец класса ...).

Например, если у меня есть два класса: А и В с числом образцов

A: 100 B: 10000

Могу ли я вход 10000 выборок для каждого и установить вес:

входные образцы A: 10000, входные образцы B: 10000

вес: 0,01, вес B: 1 .0

(2)

Но это все еще сказал:

предпочтительно путем нормализации сумма весов выборки (sample_weight) для каждого класса в то же значение

Я полностью смутил его. Имеет ли это значит, я должен вход 100 образцов А и 10000 образцов B затем установить вес:

входные образцы A: 100, входные образцы B: 10000

вес: 1,0, вес B: 1.0

Но, похоже, я ничего не сделал для баланса несбалансированных данных.

Какой способ лучше, и какой смысл второго пути в изучении Scikit? Может ли кто-нибудь помочь мне прояснить это?

ответ

1

Есть много способов, чтобы сбалансировать набор данных:

  1. передискретизации (сделать больше образца без замещения) из недопредставленного класса
  2. Undersampling (рисовать меньше образца с/без замещения) сверхпредставленного класса
  3. соседства (поиск SMOTE)
  4. Весовой метод: хотя вам нужно настроить это, но грубо вы можете начать с выбора весов, которые делают weight*number of observations равным как для un un представленных и представленных групп.
+0

Большое спасибо. Означает ли представленная и представленная группа под менее выборкой и группой образцов? – insomnia

+0

thats правильный. просто другой жаргон. – abhiieor

+0

И я смущен для ваших первых трех способов, почему бы вам не добавить вес? И четвертый способ, почему мы можем настроить вес? Я всегда думал, что вес * количество наблюдений = разные группы, это постоянный предел, который нам всегда нужен. – insomnia

Смежные вопросы