2013-09-05 4 views
10

У меня возникла странная проблема. Я успешно запускаю этот код на своем ноутбуке, но когда я пытаюсь запустить его на другой машине, я получаю это предупреждение. Распространение не указано, если предположить, что bernoulli ..., который я ожидаю, но затем получаю эту ошибку: Error in object$var.levels[[i]] : subscript out of boundsиндекс за пределами функции gbm

library(gbm) 
gbm.tmp <- gbm(subxy$presence ~ btyme + stsmi + styma + bathy, 
       data=subxy, 
       var.monotone=rep(0, length= 4), n.trees=2000, interaction.depth=3, 
       n.minobsinnode=10, shrinkage=0.01, bag.fraction=0.5, train.fraction=1, 
       verbose=F, cv.folds=10) 

Может ли кто-нибудь помочь? Структуры данных точно такие же, один и тот же код, то же R. Я даже не использую индекс здесь.

EDIT: отладочные()

6: predict.gbm(model, newdata = my.data, n.trees = best.iter.cv) 
5: predict(model, newdata = my.data, n.trees = best.iter.cv) 
4: predict(model, newdata = my.data, n.trees = best.iter.cv) 
3: gbmCrossValPredictions(cv.models, cv.folds, cv.group, best.iter.cv, 
     distribution, data[i.train, ], y) 
2: gbmCrossVal(cv.folds, nTrain, n.cores, class.stratify.cv, data, 
     x, y, offset, distribution, w, var.monotone, n.trees, interaction.depth, 
     n.minobsinnode, shrinkage, bag.fraction, var.names, response.name, 
     group) 
1: gbm(subxy$presence ~ btyme + stsmi + styma + bathy, data = subxy,var.monotone = rep(0, length = 4), n.trees = 2000, interaction.depth = 3, n.minobsinnode = 10, shrinkage = 0.01, bag.fraction = 0.5, train.fraction = 1, verbose = F, cv.folds = 10) 

Может что-то делать, потому что я переехал сохраненный R рабочее пространство на другую машину?

EDIT 2: нормально, поэтому я обновил пакет gbm на машине, где работал код, и теперь я получаю ту же ошибку. Поэтому на данный момент я думаю, что более старый пакет gbm, возможно, не имел этой проверки или что более новая версия имеет некоторые проблемы. Я не понимаю gbm достаточно хорошо, чтобы сказать.

+1

(1) Возможно, это не источник вашей проблемы, но ваша формула не должна использовать '$'; просто сделайте 'присутствие ~ ...'. (2) Одна вещь, чтобы проверить, что обе машины имеют R, настроены таким же образом; например, проверить 'strAsAsFactors'. – joran

+0

Где этот фрейм данных 'subxy'? Если это ваши собственные данные, пожалуйста, можете ли вы предоставить некоторые примеры данных, которые воспроизводят проблему. «Traceback()» того, где происходит ошибка, также будет полезен. –

+0

Распределение по умолчанию для 'gbm' - это« bernoulli », поэтому, если у вас есть результат с более чем двумя уровнями, разве вы не ожидаете выбросить ошибку? –

ответ

11

только догадка, так как я не могу видеть данные, но я считаю, что ошибка возникает, когда у вас есть уровни переменных, которые существуют в тестовом наборе, которых нет в наборе обучения.

это может легко произойти, если у вас есть фактор-переменная с большим количеством уровней или на одном уровне имеется небольшое количество экземпляров.

С тех пор, как вы используете сгибы CV, возможно, удержание на одной из петель имеет внешние уровни для данных обучения.

Я предлагаю либо:

A) использует model.matrix() для одной горячих закодировать фактор переменных

B) держать установки различных семян, пока вы не получите раскол CV, который не делает эта ошибка возникает.

РЕДАКТИРОВАТЬ: yep, с этой трассировкой, ваше 3-уе удержание в CV имеет факторный уровень в своем тестовом наборе, которого нет в обучении. поэтому функция прогнозирования видит иностранное значение и не знает, что делать.

EDIT 2: Вот краткий пример, чтобы показать, что я имею в виду «уровни фактора не в тестовом наборе»

#Example data with low occurrences of a factor level: 

set.seed(222) 
data = data.frame(cbind(y = sample(0:1, 10, replace = TRUE), x1 = rnorm(10), x2 = as.factor(sample(0:10, 10, replace = TRUE)))) 
data$x2 = as.factor(data$x2) 
data 

     y   x1 x2 
[1,] 1 -0.2468959 2 
[2,] 0 -1.2155609 6 
[3,] 0 1.5614051 1 
[4,] 0 0.4273102 5 
[5,] 1 -1.2010235 5 
[6,] 1 1.0524585 8 
[7,] 0 -1.3050636 6 
[8,] 0 -0.6926076 4 
[9,] 1 0.6026489 3 
[10,] 0 -0.1977531 7 

#CV fold. This splits a model to be trained on 80% of the data, then tests against the remaining 20%. This is a simpler version of what happens when you call gbm's CV fold. 

CV_train_rows = sample(1:10, 8, replace = FALSE) ; CV_test_rows = setdiff(1:10, CV_train_rows) 
CV_train = data[CV_train_rows,] ; CV_test = data[CV_test_rows,] 

#build a model on the training... 

CV_model = lm(y ~ ., data = CV_train) 
summary(CV_model) 
#note here: as the model has been built, it was only fed factor levels (3, 4, 5, 6, 7, 8) for variable x2 

CV_test$x2 
#in the test set, there are only levels 1 and 2. 

#attempt to predict on the test set 
predict(CV_model, CV_test) 

Error in model.frame.default(Terms, newdata, na.action = na.action, xlev = object$xlevels) : 
factor x2 has new levels 1, 2 
+1

спасибо за ответ, это немного над моей головой, я не уверен, что все это понимаю. Почему одна и та же функция работает на другом компьютере? Я никогда не получаю эту ошибку. Это немного странно. Я не хочу изменять параметр CV. –

+0

см. Edit2 в ответе, если это имеет смысл. Спасибо –

+4

, поэтому я могу подтвердить, что дезактивация CV fold gbm работает. Может быть, это ошибка с пакетом? Он работал в предыдущем пакете. Любое число CV выше 1 дает эту ошибку. Поэтому в любое время он используется. –

0

я сталкиваюсь с той же проблемой, и в конечном итоге решить ее путем изменения одного скрытой функции называемый expect.gbm в пакете gbm. Эта функция предсказывает тестирование, установленное обученным объектом gbm на обучающем наборе из деления путем перекрестной проверки.

Проблема заключается в том, что прошедший набор тестов должен содержать только столбцы, соответствующие функциям, поэтому вы должны изменить функцию.

+0

«Проблема в том, что прошедший набор тестов должен содержать только столбцы, соответствующие функциям, поэтому вы должны изменить функцию». Благодаря! Это смутило меня сегодня утром. –