2015-09-25 4 views
2

Я искал в Интернете какое-то время, чтобы понять цифровую статистику «ранжирования», которую rpart присваивает переменной на выходе переменной важности.Rpart - Variable Value Vector - как?

Я понимаю, что это число добавляет к 100, но что именно оно, что оно называется и что оно представляет?

Я нашел, что это очень полезно для ранжирования многих категоричных столбцов непрерывной целевой переменной в прошлом

ответ

1

Он рассчитывается для каждой переменной по отдельности и значение вычисляется как сумма уменьшения примеси, он считает так как переменная появляется как первичный раскол и когда она появляется как суррогат. Затем он преобразуется в процентное скоринг, самые высокие значения равны 100 и последовательно пропорциональны до нижних значений. Вы можете прочитать лучшее описание того, что означает значение varialbe здесь: https://cran.r-project.org/web/packages/rpart/vignettes/longintro.pdf и книга Breiman (Классификация и деревья регрессии).

Надеюсь, это поможет!

Смежные вопросы