Я попытался отправить письмо автору этого пакета без успеха, просто интересно, если кто-то еще испытал это.R проблем с использованием rpart с 4000 записями и 13 атрибутами
У меня есть rpart
на 4000 строк данных с 13 атрибутами. Я могу запустить тот же тест на 300 рядах одних и тех же данных без проблем. Когда я запускаю на 4000 строк, Rgui.exe работает последовательно с 50% CPU, и пользовательский интерфейс висит; он останется таким, как это, по крайней мере 4-5 часов, если я позволю ему бежать, и никогда не выходить и не реагировать.
здесь код я использую как на 300 и 4000 размер подмножества:
train <- read.csv("input.csv", header=T)
y <- train[, 18]
x <- train[, 3:17]
library(rpart)
fit <- rpart(y ~ ., x)
Это известное ограничение rpart
, я делаю что-то не так? Возможные обходные пути?
Часть проблемы в том, что вы используете 'R' для начала ... whoo. ;-) –
Это невозможно сказать без 'input.csv'. – hadley
Что такое пакет, rpart или mvpart? Обновлены ли ваши пакеты? Вы пробовали другой метод? например rpart (y ~., x, method = "anova")? Я просто попробовал разбить набор данных из 165744 наблюдений и 7 переменных и потребовалось 58.78 секунд –