Я использую Random Forest для решения проблемы классификации. Ответ имеет 5 классов. Все классы одинаково распределены в учебном наборе, однако в тестовом наборе данных два определенных класса составляют подавляющее большинство. Что бросает вызов, так это то, что в наборе валидации я вижу, что эти два класса также имеют наихудшие показатели точности. Итак, мой вопрос: существуют ли способы улучшить точность классификации этих двух конкретных классов, чтобы улучшить мое общее предсказание?Machine Learning - как улучшить классификацию определенных классов
Любой вход будет очень благодарен!
Спасибо за ответ! Я думаю, что это имеет смысл, но как я могу достичь этого с помощью пакета randomForest в R? –
Я не эксперт R. но, см. этот вопрос и ответы на SE: http://stats.stackexchange.com/questions/46963/how-to-control-the-cost-of-misclassification-in-random-forests. Лично я бы начал с решения (1) второго ответа - «преднамеренно дисбаланс [набора данных]». –