Я пытаюсь запустить дерево решений с использованием RPart
в R, на наборе данных с 26 переменными, чтобы классифицировать результат как 0 или 1. Модель имеет достоверную точность 81% и когда Я иду вперед и строю дерево, я получаю очень резкие значения разброса переменных. Пример: v10 содержит список стран, скажем, США, Великобритании, Индии и т. Д., Но сюжет, как показано здесь, как некоторые бессмысленные значения. v7 здесь был список URL-адресов, v12 некоторые количественные числа в моем наборе данных, но значения деревьев выглядят прикрученными. Вывод таблеток в графике RPart в R
ответ
Алгоритм заменяет уровни каждого фактора на буквы нижнего и верхнего регистров в алфавите. Если в коэффициенте более 56 уровней, буква Z повторяется, поэтому не рекомендуется использовать коэффициенты с более чем 56 уровнями в качестве входных данных для модели rpart.
Однако можно избежать нежелательного вывода «тарабарщины»: если вы используете plot() + text(), попробуйте использовать параметр «pretty» в функции text(). Пример:
plot(tree)
text(tree, pretty=1)
Другие выходные функции имеют для этого свой специальный параметр. Например, «метки()» имеет параметр «minlength»:
labels(tree)
labels(tree,minlength=0)
Я надеюсь, что это поможет.
Спасибо Даниэлю, который дал мне фактические значения на каждом узле. –
Можете ли вы привести воспроизводимый пример, демонстрирующий это? –