У меня есть несколько алгоритмов, которые решают задачу двоичной классификации (с ответом 0 или 1), назначая каждому наблюдению вероятность того, что целевое значение равно 1. Все алгоритмы пытаются свести к минимуму log loss function где N - количество наблюдений, y_i - фактическое целевое значение, а p_i - вероятность 1, предсказанная алгоритмом. Вот некоторые R код с данными выборки:Объединение алгоритмов двоичной классификации
actual.response = c(1,0,0,0,1)
prediction.df = data.frame(
method1 = c(0.5080349,0.5155535,0.5338271,0.4434838,0.5002529),
method2 = c(0.5229466,0.5298336,0.5360780,0.4217748,0.4998602),
method3 = c(0.5175378,0.5157711,0.5133765,0.4372109,0.5215695),
method4 = c(0.5155535,0.5094510,0.5201827,0.4351625,0.5069823)
)
log.loss = colSums(-1/length(actual.response)*(actual.response*log(prediction.df)+(1-actual.response)*log(1-prediction.df)))
Пример кода дает потерю журнала для каждого алгоритма:
method1 method3 method2 method4
0.6887705 0.6659796 0.6824404 0.6719181
Теперь я хочу, чтобы объединить это алгоритмы, так что я могу свести к минимуму потери журнала еще больше , Есть ли какой-либо пакет R, который может сделать это для меня? Я буду признателен за ссылки на любые алгоритмы, статьи, книги или исследовательские работы, которые решают эту проблему. Обратите внимание, что в качестве конечного результата я хочу предсказать вероятности каждого класса и отметить простые 0,1 ответы.