2

У меня есть несбалансированные классы записей и данных, как следующее:Data Mining и несимметричные Классы

X Y Z   Class 
1 4 Good   A 
3 5 Very Good  A 
7 6 Good   A 
8 7 Excellent  A 
4 8 Pass   A 
3 7 Good   A 
34 6 Good   A 
1 5 Very Good  A 
4 3 Excellent  B 
4 4 Excellent  B 

Я хочу, чтобы предсказать класс:

  1. что лучшие методы интеллектуального анализа данных?
  2. Я использовал дерево решений, но, к сожалению, я столкнулся с проблемой несбалансированной записи, и я был не в состоянии классифицировать данные
+0

Деревья принятия решений могут обрабатывать несбалансированные данные. Фактически, с каждым расколом они пытаются ** максимизировать несбалансированность ** (ака: чистота). –

ответ

1

Я бы рекомендовал смотреть в поражал (синтетический метод передискретизации меньшинства). Этот метод случайным образом выбирает, с заменой, из набора экземпляров меньшинства в вашем учебном наборе данных. Эти выбранные экземпляры затем добавляются как дубликаты в набор учебных материалов, что приводит к более сбалансированным классам и тем самым препятствует тому, чтобы классификатор учился только прогнозировать мажоритарный класс.

В зависимости от используемого программного обеспечения или модуля и того, необходимо ли использовать деревья принятия решений, могут быть другие варианты. Например, SVM (опять же в зависимости от используемого программного обеспечения или модуля) обычно сопровождаются возможностью указывать затраты, связанные с классом. Чтобы бороться с проблемой, о которой вы говорите, вы можете просто указать более высокую стоимость (например, штраф) в классе меньшинства.

Надеюсь, что это поможет!

Смежные вопросы