2015-09-21 3 views
1

Я использую пакет R50 C50 для обучения дерева решений C5.0 с относительно большим набором данных, который содержит около 7 миллионов наблюдений и 25 переменных (int, num, фактор, упорядоченный фактор):R: ошибка при построении дерева решений C5.0

C5Tree <- C5.0(Fraud ~ ., data = training, costs = costs) 

Обучение работает отлично, но когда я пытаюсь построить дерево, я получаю следующее сообщение об ошибке:

plot(C5Tree) 
Error in partysplit(varid = as.integer(i), index = index, info = k, prob = NULL) : 
    minimum of ‘index’ is not equal to 1 

когда я использую подвыборки данных (около 3,5 миллион наблюдений) Появляется другое сообщение об ошибке:

Error in 1:dim(a17)[1] : argument of length 0 

У меня не было никаких проблем с этим при использовании rpart и RWeka.

ответ

0

У меня недавно была эта проблема. Он исходил из категориальной переменной с очень небольшим числом наблюдений в данной категории.

Предлагаю взглянуть на подсчеты разных категорий ваших объясняющих переменных - моя догадка есть категория с 1 или 2 наблюдениями в ней.

Смежные вопросы