2014-09-20 4 views
1

Когда я изучаю логистическую регрессию, мы используем отрицательную вероятность регистрации для оптимизации параметров w для нас.Логистическая регрессия и оптимальные параметры w

SO Функция потерь (отрицательная логарифмическая вероятность) равна L (w).

Утверждение: величина оптимального w может достигать бесконечности, когда образцы обучения линейно разделяются.

Я очень смущен: 1. Что означает значение оптимального w? 2. Не могли бы вы объяснить, почему w может идти бесконечно?

ответ

1
  1. Это норма (евклидова, например), что обычно понимается как величина вектора.

  2. Предположим, что мы выполняем двоичную классификацию и классы линейно отделимы. Это означает , что существует w' такое, что (x1, w') ≥ 0 для x1 из одного класса и (x2, w') < 0 в противном случае. Затем рассмотрим z = a w' для некоторого положительного a. Понятно, что (x1, z) ≥ 0 и (x2, z) < 0 (мы можем умножить уравнения на w' на a и использовать линейность точечного произведения), так как вы можете видеть, что существуют разделяющие гиперплоскости (z s) неограниченной нормы (величины).

Именно поэтому следует добавить термин регуляризации.

1

Краткий ответ: Это фундаментальная характеристика функции журнала.

считают:

    log(x), where x spans (0,1) 

Диапазон значений LOG (х) можно взять:

      is (-Inf, 0) 

Более конкретно на ваш вопрос - логарифмического правдоподобия определяется по формуле: (фото)

l(w) = y * log(h(x)) + (1 - y) * log (1 - h(x)) 

    where, 

     h(x) is a sigmoid function parameters by w: 
       h(x) = (1 + exp{-wx})^-1  

Для простоты рассмотрим случай учебного примера, где у = 1, уравнение принимает вид:

правдоподобия (л):

  = y * log (h(x)); 

      =  log (h(x)) 

ч (х) в логистической регрессии, может быть представлена ​​с помощью функции сигмовидной. он имеет диапазон (0,1)

Следовательно, спектр (л):

  (log (0), log(1)) = (-Inf, 0) 

      (l) spans the range (-Inf, 0) 

выше упрощение только рассмотрел (у = 1) случай. Если вы считаете всю функцию правдоподобия журнала (т. Е. Для y = 1 & y = 0), вы увидите функцию с перевернутой чашей.Следовательно, существует оптимальный вес, который максимизирует логарифмическую вероятность (l) или минимизирует отрицательную логарифмическую вероятность (-l)

Смежные вопросы