У меня есть набор данных с NAs
, щедро разбросанным по всему периметру.R выбор вариации для коэффициентов() И NA
Кроме того, он имеет столбцы, которые должны быть factors()
.
Я использую функцию rfe()
из пакета caret
для выбора переменных.
Кажется functions=
аргумент в rfe()
с использованием lmFuncs
работ для данных НСБУ, но не на факторных, в то время как rfFuncs
работ для переменных факторов, но не САМ.
Любые предложения по борьбе с этим?
Я пробовал model.matrix()
, но, похоже, это вызывает больше проблем.
Я скептически отношусь к 'lmFuncs' с некоторыми переменными в качестве факторов. Однако я мог убедиться с воспроизводимым примером. Тот факт, что Random Forests (по умолчанию) не принимает случаи с NA, является просто хорошо документированной «особенностью» этого алгоритма (или, по крайней мере, его R-версии). Если вы хотите, чтобы древовидные модели без проблем обрабатывали NA, «treebagFuncs» может быть более безопасным (но я его не тестировал). – joran