У меня есть некоторые данные, которые я хотел бы сегментировать. Моей первой мыслью было дерево классификации в R из пакета Rpart. Мои данные обучения состоят из множества объясняющих переменных и одной переменной ответа 0-1 с именем «продано». Значение ответа «1» появляется примерно в 80% строк. Когда я пытаюсь построить дерево с rpart(sold~., training_data, method = "class")
, R не может создать дерево. Я полагаю, что причина в том, что он не может найти сегментов, которые сильно отличаются друг от друга. После быстрой проверки данных я ожидаю, что мое дерево должно выглядеть так, что левый узел будет иметь 85% проданного и правого узла будет иметь 75% проданных.R дерево классификации с Rpart
Есть ли способ создать дерево классификации в таком наборе данных?
Сколько данных у вас есть в training_data? Обратите внимание, что в методе есть небольшая опечатка. –
Около 70 000 строк и 18 пояснительных переменных. –
Не могли бы вы рассказать, что такое сообщение об ошибке, которое дает R? –