Я пытаюсь сделать дерево для большого набора данных, который у меня есть. Я могу нормально управлять деревом и не получать ошибок. Однако, когда я смотрю на этикетки для дерева, они очень грязные и непонятные. Кроме того, я считаю, что результаты неверны. (FYI, я вынул некоторые из переменных в приведенном ниже коде, чтобы не просто прокручивать все переменные, проблема возникает со многими или только с несколькими переменными)Проблемы с маркировкой для rpart в дереве решений в R
Например, разделение EMPLOY1 включено = j, но значения в переменных «неспособны работать», «удалены» и т. д. Любые мысли, что я делаю неправильно с выходом дерева?
Код:
library(rpart)
fit <- rpat(poorhealth_cat ~
SCNTWRK1+
SCNTLWK1+
SCNTMEAL+
SCNTMONY+
SCNTPAID+
SEX+
SLEPTIM1+
SMOKE100+
SMOKDAY2+
STRENGTH+
TOLDHI2+
USENOW3+
WEIGHT2+
WTCHSALT+
FRT16+
, method="class", data=cdc) # grow tree
printcp(fit) # display the results
plotcp(fit) # visualize cross-validation results
summary(fit) # detailed summary of split
# plot unpruned tree
plot(fit,uniform=TRUE, main="Classification Tree for poorhealth_cat")
text(fit, use.n=TRUE, all=TRUE, cex=.8)
!