2017-01-26 3 views
1

Я выполнил классификацию и деревья регрессии (trees.REPTree) по данным Housing.arff (с 66% процентной доли). Это результат.Weka - Деревья классификации и регрессии

REPTree 
============ 

RM < 6.84 
| LSTAT < 14.8 
| | LSTAT < 9.75 : 25.15 (88/21.02) [47/55.38] 

Что означают значения у листьев (25,15, 88/21,02 и т. Д.)?

+0

Вы нашли ответ? У меня такой же вопрос. Я разместил его в списке Weka, но ответов пока нет. http://weka.8497.n7.nabble.com/REPTree-regression-tree-meaning-of-leaf-node-information-td40575.html – zbicyclist

ответ

1

Я попытался ответить на реверсирование ответа, и если я получу более подробную информацию, я обновлю это.

Я запустил очень маленькое дерево в наборе данных Toyota Corolla (прогнозируемая цена подержанного автомобиля). Вот дерево:

Age_08_04 < 32.5 
| Weight < 1297.5 : 18033.54 (121/6009564.12) [59/6768951.55] 
| Weight >= 1297.5 : 27945.83 (3/10945416.67) [3/22217291.67] 
Age_08_04 >= 32.5 
| Age_08_04 < 57.5 : 11363.26 (296/2827594.01) [144/2999066.05] 
| Age_08_04 >= 57.5 : 8636.94 (537/1487597.91) [273/1821232.47] 

Первые числа в узлах листьев (18033, 27945, 11363, 8636) прогнозируемые цены на эти автомобили. Второе и четвертое числа добавляют к числу экземпляров: 121 + 59 + 3 + 3 ... + 273 = 1436, количество экземпляров во всем наборе. Второе число составляет до 957 (две трети экземпляров), а четвертые цифры составляют до 479 (одна треть экземпляров).

Виттен книга коллег (интеллектуальный анализ данных: Практические инструменты Machine Learning и методы, 4-е издание), в разделе 6.1 (Decision Trees: Ошибка Оценки частота появления ошибок) отмечают

«Один из способов придумать с оценка погрешности - это стандартная методика проверки : сдерживать некоторые из первоначально изданных данных и использовать их в качестве независимого тестового набора для оценки ошибки на каждом узле , что называется сокращением обрезания ошибок ». (Kindle location 5403)

Так что я думаю, что это делает 2/3, 1/3 разделение на данные, хотя мы также делаем 10-кратное перекрестное подтверждение.

Третий и пятый номера (после /) кажутся MSE. Выполняя бит алгебры, средневзвешенное значение пятых чисел согласуется с квадратичной ошибкой корневого среднего и ошибкой относительного квадрата корня, указанным в сводке кросс-валидации. (не совсем точный, но я не думаю, что это ожидалось)

Опять же, если я узнаю больше информации, я обновлю этот ответ, и я был бы рад получить более подробную информацию от другие.

Смежные вопросы