2013-07-02 1 views
0

Я тренирую RandomForestClassifier по проблеме двоичной классификации в scikit-learn. Я хочу максимизировать свой балл auc для модели. Я понимаю, что это невозможно в версии с стабильной версией 0.13, но возможно в версии с 0.14 версией.auc_score in scikit-learn 0.14

Я попытался это, но я, кажется, чтобы получить худший результат:

IC = RandomForestClassifier (n_estimators = 100, compute_importances = True, критерий = 'энтропия', score_func = auc_score);

Это работает как параметр для модели или только в gridsearchCV?

Если я использую его в gridsearchCV, он сделает модель подходящей для данных лучше для auc_score? Я также хочу попробовать, чтобы максимизировать отзыв_score.

ответ

1

Я удивлен, что вышеизложенное не вызывает ошибки. Вы можете использовать AUC только для выбора модели, как в GridSearchCV. Если вы используете его там (scoring='roc_auc' iirc), это означает, что будет выбрана модель с лучшим auc. Это не делает отдельные модели лучше в отношении этого показателя. По-прежнему стоит попробовать.

+0

Есть ли другой способ улучшить случайные результаты леса с несбалансированными классами? Кажется, я очень много встречаюсь с этим. У меня есть несколько сотен выборок, но только около 10 - это класс = 1. Я хотел бы получить как можно больше истинных положительных результатов для класса = 1 даже за счет более ложных срабатываний, но я не могу понять, как настроить модель для достижения этой цели. – denson

+0

Некоторые классификаторы имеют параметр '' class_weight'', чтобы перемасштабировать важность определенных классов. К сожалению, это еще не реализовано в РФ. Однако вы можете использовать параметр '' sample_weight'' функции '' fit'', чтобы переопределить значения выборок из каждого класса. Использование '' 1/(n_samples_in_class) '' является общей эвристикой. –

0

Я нашел статью в журнале, в которой рассматриваются неуравновешенные классы со случайными лесами. Несмотря на то, что он нацелен на запуск RDF на кластерах Hadoop, те же методы, похоже, хорошо работают и с меньшими проблемами:

del Río, S., López, V., Benítez, JM, & Herrera, F. (2014)). Об использовании MapReduce для несбалансированных больших данных с использованием Random Forest. Информационные науки, 285, 112-137.

http://sci2s.ugr.es/rf_big_imb/pdf/rio14_INS.pdf

Смежные вопросы