2015-07-20 4 views
0

Линейная регрессия определяет, что Y является функцией X. Используя эту функцию, можно предсказать Y, используя значения X до их возникновения (игнорируя выбросы).Зачем использовать несколько функций в линейной регрессии?

Унилинейная линейная регрессия зависит только от одной переменной. Но более мощная форма - многовариантная линейная регрессия, где вместо использования только одного параметра: X, используйте несколько параметров. Это невозможно визуализировать на плоскости X, Y, возможно, можно представить 3 параметра, но 4,5,6 параметров (размеров) не могут.

Идея состоит в том, что с большим количеством параметров даст лучшее предсказание. В чем заключается основа этого? Почему использование нескольких функций улучшает качество прогноза? Интуитивно я понимаю, что чем больше известно о проблеме, тем более точным может быть предсказание. Но почему добавление дополнительных функций, или, другими словами, увеличивает точность функции? Существует ли формальное определение этого?

Или это просто пробная версия и ошибка - одной функции может быть достаточно, но она не будет знать точно до тестирования с несколькими функциями.

+0

Случай нескольких функций является лишь обобщением случая только с одной функцией, где ваш вес вектор имеет нули для всех, кроме одной функции. Таким образом, не может быть хуже, просто потому, что вы можете игнорировать дополнительную информацию. – cel

+2

«Идея состоит в том, что с большим количеством параметров даст лучшее предсказание». Не обязательно. Если вы используете слишком много параметров, полученную модель можно переопределить. В любом случае, вы должны задать этот вопрос в [CrossValidated] (http://stats.stackexchange.com). – BartoszKP

+0

Это действительно более подходящее обсуждение для проверки перекрестного стека. Для кодирования вопросов следует использовать переполнение. – JJFord3

ответ

0

Формальное доказательство очень простое. Характер вашего отображения f не может быть выражен как функция ваших функций. Вы можете получить только некоторое приближение и добавить больше переменных всегда расширить пространство возможных аппроксиматоров (если быть более строгим - никогда не уменьшает). Хотя на самом деле это может быть сложнее, чтобы найти хороший аппроксиматор в этом новом пространстве (и поэтому все известные алгоритмы не удастся), всегда будет больше шансов, что существует . В общем случае - если вы можете создать идеальный набор функций, например .... сами выходные значения, то добавление чего-либо приведет к фактическому снижению качества модели. Но в реальной жизни - мы, как люди, - не способны найти таких хороших предикторов, и поэтому мы слепо следим за тем, что можно получить, измеренными от реальности, и как простое случайное догадки - каждая дополнительная информация может быть полезной.

Если вы предпочитаете более математическое решение, рассмотреть f является функцией неизвестного множества функций

f(x1, ..., xm) e R 

теперь вы можете измерить особенности в некотором бесконечном пространстве исходных сигналов r1, r2, ..., и для каждого подмножества исходных сигналов там является отображением на эти истинные признаки f, но с различной степенью корректности, поэтому у вас есть g1(r1, r2, r3) = (x1+er1, 0, x3+er3, ...); g2(r1) = (0, 0, x3+er4, ...) и т. д. Вы пытаетесь построить функцию из некоторого конечного поднабора необработанных сигналов в R, который будет приблизительно f, поэтому большее количество r вы включите, у вас больше шансов c захват таких элементов, что сделает возможным приближение f. К сожалению, вы можете добавить много избыточных сигналов или те, которые полностью не соответствуют истинным функциям. Это может рассматриваться как большая проблема смещения смещения. Чем больше функций вы добавляете, предполагая, что вы делаете это во всем спектре возможных сигналов (и поэтому вы действительно можете найти что-то действительно связанное с природой f), тем больше дисперсии вы представите. А с другой стороны - малый набор функций приводит к высокой ошибке смещения (из-за сильных предположений о требуемых сигналах и их корреляциях с истинными функциями).

В частности, линейная регрессия плохо подходит для работы с высококоррелированными сигналами, поэтому для этой конкретной статистической модели добавление новых сигналов может быстро привести к разрушению вашей модели.Существует сильное базовое допущение LR, что f является линейной моделью всех ваших предикторов до нормально распределенных ошибок с равными отклонениями между каждым измерением.

+0

«добавление большего количества переменных всегда расширяет пространство возможных аппроксиматоров», другими словами: функция обучения с большим количеством параметров будет иметь более высокую степень дисперсии в ее вычисленном значении, поскольку большее количество параметров дает больший диапазон функциональных операндов? –

+1

хорошо сложнее, чем просто «диапазон функциональных операндов»; это больше связано с тем, что вы просто расширяете пространство возможных функций. Если все параметры лежат в одном и том же многообразии, то добавление большего количества из них не расширяет пространство, в то время как вы по-прежнему получаете «больший диапазон функциональных операндов», дело в том, что вы можете фактически охватить больше «истинного» домена посредством введения (по крайней мере частично) ортогональные сигналы – lejlot

+0

Могу ли я попросить причину голосования «-1»? Если ответ неверен/пропущен, пожалуйста, предоставьте свои сомнения, чтобы его можно было улучшить. – lejlot

0

Просто добавлю, что сказал @lejlot, я бы сказал, что все большее число функций не всегда увеличит вероятность моделирования правильной модели регрессии, так как есть шансы переобучения модели обучения. Скорее находят функции, которые независимы друг от друга и по-прежнему способствуют общей модели.

Я хотел бы предложить эту конкретную должность, чтобы понять больше о линейной регрессии и как больше возможностей помогают:

http://cs229.stanford.edu/notes/cs229-notes1.pdf

+0

Как это добавляет что-либо к ответу? Очевидно, что «Overfitting» ясно сказано: «Чем больше функций вы добавляете, предполагая, что вы делаете это во всем спектре возможных сигналов (и поэтому вы действительно можете найти что-то действительно связанное с природой f), тем больше дисперсии вы введете« высокую ошибку дисперсии » = переобучение в машинном обучении/статистике. – lejlot

+0

Ссылка была бы хорошим способом заставить кого-то понять линейную регрессию. –

Смежные вопросы