Я использую пакет ramdomForest
для создания случайной модели леса. Майские наборы данных огромны, и более миллиона наблюдений имеют более 200 переменных. Во время обучения случайному лесу с образцовыми данными я не могу зафиксировать все уровни факторов всех переменных.Как автоматически исключить невидимые новые уровни факторов в pred.randomForest?
Таким образом, при прогнозировании при проверке, установленном с использованием predict()
, это вызывает ошибку при наличии новых уровней факторов, которые не учитываются в данных обучения.
Одним из решений является обеспечение того, чтобы переменные данных обучения содержали все уровни факторов. Но это оказалось очень утомительным, и мне действительно не нужны все уровни факторов.
Существует ли способ автоматического исключения наблюдений из набора проверки, который содержит предыдущие неопознанные уровни факторов во время работы predict()
в пакете randomForest? Может найти любой аргумент для этого в документе CRAN. Я не думаю, что смогу сделать воспроизводимый пример для этого.
Но как вы могли предсказывать уровни, которых нет в обучении? –
Я не против исключения наблюдений с некоторыми уровнями, которые происходят с очень низкой частотой. Я могу просто игнорировать эту часть данных, а не предсказывать. – Gaurav