2016-06-14 4 views
2

Я вижу, что в gridsearchcv лучшие параметры определяются на основе cross-validation, но то, что я действительно хочу сделать, это определить лучшие параметры на основе one held out validation set вместо cross validation.протягивал обучение и набор проверки в gridsearchcv sklearn

Не уверен, есть ли способ сделать это. Я нашел несколько подобных сообщений, где настраивается cross-validation folds. Однако снова мне действительно нужно тренироваться на одном наборе и проверять параметры в наборе валидации.

Дополнительная информация о моем наборе данных - это, в основном, text series type создатель: panda.

+0

Вы пробовали глядя в параметр сорта класса gridsearchcv , Это может быть как итерабельное разделение, которое вы хотите. Вы можете добавить свою проверку на набор тренировок и передать итерабельность, которая дает раскол при обучении и валидации? –

ответ

2

я пришел с ответом на мой собственный вопрос посредством использования PredefinedSplit

for i in range(len(doc_train)-1): 
    train_ind[i] = -1 

for i in range(len(doc_val)-1): 
    val_ind[i] = 0 

ps = PredefinedSplit(test_fold=np.concatenate((train_ind,val_ind))) 

, а затем в аргументах gridsearchCV

grid_search = GridSearchCV(pipeline, parameters, n_jobs=7, verbose=1 , cv=ps) 
Смежные вопросы