2015-01-11 4 views
4

Я пытаюсь использовать GridSearchCV для RandomForestRegressor, но всегда получаю ValueError: Found array with dim 100. Expected 500. Рассмотрим эту игрушку пример:Использование GridSearchCV для RandomForestRegressor

import numpy as np 

from sklearn import ensemble 
from sklearn.cross_validation import train_test_split 
from sklearn.grid_search import GridSearchCV 
from sklearn.metrics import r2_score 

if __name__ == '__main__': 

    X = np.random.rand(1000, 2) 
    y = np.random.rand(1000) 

    X_train, X_test, y_train, y_test = train_test_split(
     X, y, test_size=0.5, random_state=1) 

    # Set the parameters by cross-validation 
    tuned_parameters = {'n_estimators': [500, 700, 1000], 'max_depth': [None, 1, 2, 3], 'min_samples_split': [1, 2, 3]} 

    # clf = ensemble.RandomForestRegressor(n_estimators=500, n_jobs=1, verbose=1) 
    clf = GridSearchCV(ensemble.RandomForestRegressor(), tuned_parameters, cv=5, scoring=r2_score, n_jobs=-1, verbose=1) 
    clf.fit(X_train, y_train) 
    print clf.best_estimator_ 

Это то, что я получаю:

Fitting 5 folds for each of 36 candidates, totalling 180 fits 
Traceback (most recent call last): 
    File "C:\Users\abudis\Dropbox\machine_learning\toy_example.py", line 21, in <module> 
    clf.fit(X_train, y_train) 
    File "C:\Users\abudis\AppData\Local\Enthought\Canopy\User\lib\site-packages\sklearn\grid_search.py", line 596, in fit 
    return self._fit(X, y, ParameterGrid(self.param_grid)) 
    File "C:\Users\abudis\AppData\Local\Enthought\Canopy\User\lib\site-packages\sklearn\grid_search.py", line 378, in _fit 
    for parameters in parameter_iterable 
    File "C:\Users\abudis\AppData\Local\Enthought\Canopy\User\lib\site-packages\sklearn\externals\joblib\parallel.py", line 653, in __call__ 
    self.dispatch(function, args, kwargs) 
    File "C:\Users\abudis\AppData\Local\Enthought\Canopy\User\lib\site-packages\sklearn\externals\joblib\parallel.py", line 400, in dispatch 
    job = ImmediateApply(func, args, kwargs) 
    File "C:\Users\abudis\AppData\Local\Enthought\Canopy\User\lib\site-packages\sklearn\externals\joblib\parallel.py", line 138, in __init__ 
    self.results = func(*args, **kwargs) 
    File "C:\Users\abudis\AppData\Local\Enthought\Canopy\User\lib\site-packages\sklearn\cross_validation.py", line 1240, in _fit_and_score 
    test_score = _score(estimator, X_test, y_test, scorer) 
    File "C:\Users\abudis\AppData\Local\Enthought\Canopy\User\lib\site-packages\sklearn\cross_validation.py", line 1296, in _score 
    score = scorer(estimator, X_test, y_test) 
    File "C:\Users\abudis\AppData\Local\Enthought\Canopy\User\lib\site-packages\sklearn\metrics\metrics.py", line 2324, in r2_score 
    y_type, y_true, y_pred = _check_reg_targets(y_true, y_pred) 
    File "C:\Users\abudis\AppData\Local\Enthought\Canopy\User\lib\site-packages\sklearn\metrics\metrics.py", line 65, in _check_reg_targets 
    y_true, y_pred = check_arrays(y_true, y_pred) 
    File "C:\Users\abudis\AppData\Local\Enthought\Canopy\User\lib\site-packages\sklearn\utils\validation.py", line 254, in check_arrays 
    % (size, n_samples)) 
ValueError: Found array with dim 100. Expected 500 

По какой-то причине GridSearchCV считает, что n_estimators параметр должен быть равен размеру каждой складки. Если я изменил первое значение n_estimators в списке tuned_parameters, я получаю ValueError с другим ожидаемым значением.

Обучение только одной модели с использованием clf = ensemble.RandomForestRegressor(n_estimators=500, n_jobs=1, verbose=1) работает нормально, поэтому не уверен, что я делаю что-то неправильно или есть ошибка в scikit-learn где-то.

ответ

3

выглядит как ошибка, но в вашем случае она должна работать, если вы используете собственный бомбардир RandomForestRegressor «S (который по совпадению является R^2 баллов), не определяя какую-либо функции подсчета очков в GridSearchCV:

clf = GridSearchCV(ensemble.RandomForestRegressor(), tuned_parameters, cv=5, 
        n_jobs=-1, verbose=1) 

EDIT : Как упоминалось @jnothman в #4081, это настоящая проблема:

оценка не принимает метрическую функцию. Он принимает функцию сигнатуры (оценка,> X, y_true = None) -> поплавок. Вы можете использовать scoring = 'r2' или scoring = make_scorer (r2_score).

+1

Я создал две проблемы [# 4080] (https://github.com/scikit-learn/scikit-learn/issues/4080) и [# 4081] (https://github.com/scikit -Узнайте/scikit учиться/вопросы/4081). – elyase

+0

А, ладно. Да, я указал параметр оценки, потому что я действительно не знал, что было по умолчанию для регрессоров (mse или r2). Удаляющ его вообще трюк, спасибо! – abudis

Смежные вопросы