Набор данных для обучения чрезвычайно широк (около 200 тыс. Функций) и очень короткий (сотен). Очевидно, что набор данных занимает много памяти, но R читает его без проблем.Эффективные кластеры памяти в R для чрезвычайно широкого и не слишком длинного набора для обучения
Затем я обучил классификатору случайного леса, и на нем закончилась память. Поэтому я переключился на более простой классификатор, такой как Naive Bayes. NB привел к нехватке памяти.
Как правило, что такое наиболее эффективные по цене классификаторы? Я подозреваю, что логистическая регрессия и Наивные байесовский должны составить список ...
UPD:
Я закончил с использованием методов снижения функции перед использованием случайного леса. Пакет caret может помочь, но не с начальным числом переменных в моем случае.
сокращение Feature используется:
- порог дисперсии фильтра (удалены особенности с дисперсией ниже порога);
- корреляция между характеристиками и прогнозируемыми значениями: удаленные объекты с низкой корреляцией;
- Функция парных корреляций: устранение высоких парных функций корреляции.
Как вы пытались получить случайный лес, чтобы эффективно работать в R? Не все настройки по умолчанию рекомендуется с такими данными, как ваши. – joran
Чтобы добавить к сказанному joran, я бы рекомендовал использовать следующие варианты в вашей формуле 'randomForest (x, y, ...)': 'ntree',' mtry', 'nodesize',' maxnodes'. Все они будут влиять на скорость сборки вашего случайного леса. Судя по вашему краткому описанию набора данных, я бы сказал, что вы можете попытаться уменьшить «mtry» и увеличивать «nodeize» и «maxnodes». – zap2008
Я действительно ценю помощь в случайном лесу, но я все еще надеюсь увидеть другие предложения классификатора. – topchef