1

Я использую http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.cross_val_score.htmlCross Validation в Scikit Подробнее

для того, чтобы пересечь проверку логистической регрессии классификатор. Результаты, которые я получил являются:

[ 0.78571429 0.64285714 0.85714286 0.71428571 
0.78571429 0.64285714 0.84615385 0.53846154 
0.76923077 0.66666667] 

Мой основной вопрос заключается в том, как я мог бы найти, какой набор/раз увеличивает счет моего классификаторов и производит 0,857.

Последующий вопрос: Является ли обучение моему классификатору этим набором хорошей практикой?

Заранее спасибо.

+0

У вас, похоже, много вопросов. Я бы рекомендовал выбрать самый важный и просить об этом. На другие вопросы можно получить ответ случайно. :) – erip

+0

На всякий случай «Логистическая регрессия» не является классификатором как таковым. –

ответ

3

ли и как я мог бы найти, какой набор раз максимизирует/мой классификатор Счёт

Из документации cross_val_score, вы можете увидеть, что он работает на конкретном объекте cv. (Если вы не укажете его явно, то в некоторых случаях это будет KFold, другие вещи в других случаях - см. Там документацию.)

Вы можете перебирать этот объект (или идентичный), чтобы найти точные показатели поезда/теста. Например,:

for tr, te in KFold(10000, 3): 
    # tr, te in each iteration correspond to those which gave you the scores you saw. 

ли обучение моего классификатора с этим набором является хорошей практикой.

Абсолютно нет!

Единственное законное использование перекрестной проверки - это такие вещи, как оценка общей производительности, выбор между различными моделями или настройка параметров модели.

Как только вы привязаны к модели, вы должны обучить ее всему учебному набору. Совершенно неправильно тренировать его над подмножеством, которое получило лучший результат.

+1

+1 для консультации по хорошей практике. Я бы добавил, что, хотя в разных полях он отличается, обычно «хорошая практика» использует кросс-валидацию в наборе обучения для оценки параметров, переподготовку на этом наборе, а затем оценку модели на невидимом наборе тестов. Зависит от того, сколько данных очевидно! – ncfirth

Смежные вопросы