2015-07-01 3 views
2

У меня есть некоторые данные, которые я хотел бы сегментировать. Моей первой мыслью было дерево классификации в R из пакета Rpart. Мои данные обучения состоят из множества объясняющих переменных и одной переменной ответа 0-1 с именем «продано». Значение ответа «1» появляется примерно в 80% строк. Когда я пытаюсь построить дерево с rpart(sold~., training_data, method = "class"), R не может создать дерево. Я полагаю, что причина в том, что он не может найти сегментов, которые сильно отличаются друг от друга. После быстрой проверки данных я ожидаю, что мое дерево должно выглядеть так, что левый узел будет иметь 85% проданного и правого узла будет иметь 75% проданных.R дерево классификации с Rpart

Есть ли способ создать дерево классификации в таком наборе данных?

+0

Сколько данных у вас есть в training_data? Обратите внимание, что в методе есть небольшая опечатка. –

+0

Около 70 000 строк и 18 пояснительных переменных. –

+0

Не могли бы вы рассказать, что такое сообщение об ошибке, которое дает R? –

ответ

1

У меня была такая же проблема. Кажется, проблема с 'cp'. Обратитесь к моему коду:

tr1<-rpart(bad~group+amount, data=ra, 
control=rpart.control(minsplit=5, cp=0.001),method='class') 

Когда я запускаю это, он работал. , когда я увеличиваю уровень CP (например, 0,005), он не работает.

Смежные вопросы