2015-07-13 4 views
0

Я пытаюсь запустить дерево решений с использованием RPart в R, на наборе данных с 26 переменными, чтобы классифицировать результат как 0 или 1. Модель имеет достоверную точность 81% и когда Я иду вперед и строю дерево, я получаю очень резкие значения разброса переменных. Пример: v10 содержит список стран, скажем, США, Великобритании, Индии и т. Д., Но сюжет, как показано здесь, как некоторые бессмысленные значения. v7 здесь был список URL-адресов, v12 некоторые количественные числа в моем наборе данных, но значения деревьев выглядят прикрученными. Decision Tree Using RPartВывод таблеток в графике RPart в R

+1

Можете ли вы привести воспроизводимый пример, демонстрирующий это? –

ответ

1

Алгоритм заменяет уровни каждого фактора на буквы нижнего и верхнего регистров в алфавите. Если в коэффициенте более 56 уровней, буква Z повторяется, поэтому не рекомендуется использовать коэффициенты с более чем 56 уровнями в качестве входных данных для модели rpart.

Однако можно избежать нежелательного вывода «тарабарщины»: если вы используете plot() + text(), попробуйте использовать параметр «pretty» в функции text(). Пример:

plot(tree) 
text(tree, pretty=1) 

Другие выходные функции имеют для этого свой специальный параметр. Например, «метки()» имеет параметр «minlength»:

labels(tree) 
labels(tree,minlength=0) 

Я надеюсь, что это поможет.

+0

Спасибо Даниэлю, который дал мне фактические значения на каждом узле. –