2016-01-27 2 views
1

Я использую данные по широте и долготе, а также данные Landsat в качестве предсказателей в моей случайной модели леса, целью которой является предсказать присутствие или отсутствие черных елей в ландшафте. Широта отображается как имеющая большое значение, и вы можете увидеть влияние резких линий широты в прогнозируемых прогнозах. Кроме того, используя tunerF, mtry оптимизирован только для 2-х предикторов, причем одним из них является широта. Подходит ли моя модель?Может ли предиктор в случайном лесу привести к недоустройству?

+2

Наверное, следует спросить здесь: http://stats.stackexchange.com/questions/tagged/r –

ответ

1

Выбор mtry = 2, не означает, что вы полностью отбрасываете третий параметр. На самом деле, наоборот. Вы должны в начале включить все разумные предиктора в обучение модели РФ. Понижение mtry позволит тестировать в каждом узле меньше, чем все переменные. Это позволяет менее доминирующим переменным вносить больший вклад в окончательное предсказание. Низкий mtry аналогичен регрессии (регуляризованной). Регуляризация увеличивает смещение, но снижает дисперсию. Иногда грубые и надежные просто лучше, иногда нет. Вы бы поняли, перекрестная проверка.

Похоже, у вас есть ~ 500 выборок (много) и только 3-6 переменных (несколько). Я начинал бы ленивый и просто менял mtry вручную на все значения 3-6 и смотрел на возвращаемое значение OOB-CV.

Смежные вопросы