Я участвую в конкурсе Kaggle San Francisco Crime, и в настоящее время я пытаюсь определить количество различных классификаторов для тестирования тестов. Я использую LogisticRegressionClassifier из sklearn без настройки параметров, и я заметил из sklearn.metrict.classification_report, что он только предсказывает преобладающие классы, т. Е. классы, которые имеют наибольшее количество вхождений в моем учебном наборе.Логистическая регрессия распознает только преобладающие классы
Intuition сообщает мне, что это необходимо для настройки параметров, но я не уверен, какие параметры мне нужно подкрутить, чтобы сделать классификатор более осведомленным о менее преобладающих классах (LogisticRegressionClassifier имеет немало). На данный момент он предсказывает только 3 класса из 38 или smth, так что это определенно нуждается в улучшении.
Любые идеи?
Вы должны опубликовать часть своего кода, часть, которая, по вашему мнению, более актуальна. Он предоставляет информацию, которую вы, возможно, не сообщили. – g24l
Что произойдет, если вы используете параметр 'class_weight = 'balanced''? –
Также посмотрите на GridSearchCV и подобные классы, возможно, они помогут найти хорошие гиперпараметры. –