2013-06-05 2 views
3

Я тестирование производительности логистической регрессии с использованием процедуры cv.glm Перекрёстной Проверки библиотеки загрузки в R.cv.glm Проблема с отсутствующими факторами R

Некоторые из моих предикторов являются факторами.

Когда я запускаю его я получаю следующее сообщение об ошибке:

Error in model.frame.default(Terms, newdata, na.action = na.action, xlev = object$xlevels) 
factor color has new levels RED 

Я думаю, я понимаю проблему. Может быть, я тренирую регрессионную модель на подмножестве наблюдений, в которых некоторые уровни факторной переменной отсутствуют. Если эта модель позже будет использоваться для новых наблюдений, включая невидимые уровни предикторной переменной, тогда она не знает, как себя вести.

Поскольку это выглядит как фундаментальная проблема с CV, я удивлен, что в документации библиотеки я не нашел упоминания.

Я был бы очень признателен за любые указатели.

+0

Благодарим вас за комментарий. Чтобы быть ясным, вы предлагаете использовать пакет ipred для оценки ошибок вместо загрузочной библиотеки? – user695652

ответ

1

Как я уже говорил в моем комментарии, вот пример прямо из ?errorest в ipred пакет:

#cv of a fixed partition of the data 
list.tindx <- list(1:100, 101:200, 201:300, 301:400, 401:500, 
     501:600, 601:700, 701:768) 

errorest(diabetes ~ ., data=PimaIndiansDiabetes, model=lda, 
      estimator = "cv", predict = mypredict.lda, 
      est.para = control.errorest(list.tindx = list.tindx)) 

Таким образом, вы можете указать свои резюме складывает в использовании, и обеспечить, чтобы они достаточно сбалансированы избегать уровней факторов, отсутствующих в любой раз.

Смежные вопросы