Я тренирую RandomForestClassifier по проблеме двоичной классификации в scikit-learn. Я хочу максимизировать свой балл auc для модели. Я понимаю, что это невозможно в версии с стабильной версией 0.13, но возможно в версии с 0.14 версией.auc_score in scikit-learn 0.14
Я попытался это, но я, кажется, чтобы получить худший результат:
IC = RandomForestClassifier (n_estimators = 100, compute_importances = True, критерий = 'энтропия', score_func = auc_score);
Это работает как параметр для модели или только в gridsearchCV?
Если я использую его в gridsearchCV, он сделает модель подходящей для данных лучше для auc_score? Я также хочу попробовать, чтобы максимизировать отзыв_score.
Есть ли другой способ улучшить случайные результаты леса с несбалансированными классами? Кажется, я очень много встречаюсь с этим. У меня есть несколько сотен выборок, но только около 10 - это класс = 1. Я хотел бы получить как можно больше истинных положительных результатов для класса = 1 даже за счет более ложных срабатываний, но я не могу понять, как настроить модель для достижения этой цели. – denson
Некоторые классификаторы имеют параметр '' class_weight'', чтобы перемасштабировать важность определенных классов. К сожалению, это еще не реализовано в РФ. Однако вы можете использовать параметр '' sample_weight'' функции '' fit'', чтобы переопределить значения выборок из каждого класса. Использование '' 1/(n_samples_in_class) '' является общей эвристикой. –