2016-04-17 2 views
1

Я новичок в интеллектуальном анализе данных, и я пытаюсь обучить дерево решений, но набор данных, который я выбрал, очень предвзято, поэтому результат, который я получаю, также предвзято. Я искал в Интернете, и я наткнулся на сбалансированную точность. Я не доволен результатом.Дерево решений принятия решений с предвзятым набором данных

Будет ли это хорошей идеей, если я сделаю выборку своих данных таким образом, чтобы я пропорционал ее одинаково, как в 1000 случаях YES и 1000 из NO?

+0

Вместо того, чтобы передискретизировать набор данных, я бы использовал вес во время обучения. –

ответ

0

Одним из способов преодоления дисбаланса класса является недоумение большего класса, так что распределение классов составляет примерно половину и половину.

Ответ на ваш вопрос: да, если 1000 - это размер меньшего класса, чтобы вы потеряли менее крупные точки данных.

Примечание: При выборе из точек данных большего класса попытайтесь оставить те точки данных, у которых больше отсутствующих значений.

0

Вы также можете получить вес при моделировании. вы можете присвоить более высокий вес классу меньшинства, он компенсирует дисбаланс.

Смежные вопросы