2017-02-01 2 views
0

Недавно я прочитал PCA (принцип компонентного анализа) и понял, как уменьшить размер. мы выбираем собственный вектор, соответствующий максимальному собственному значению, когда нам нужно только одно измерение, но если требуется более одного измерения, тогда я должен взять собственные векторы, реагирующие на максимальные собственные значения?как выбрать более одного измерения с использованием анализа основных компонентов

ответ

1

В принципе да (из того, что можно сделать из вашего описания), было бы неплохо иметь больше информации в вашем случае, вашем инструменте реализации и т. Д. Но в принципе да, этот процесс будет:

  1. Compute ковариационная матрица
  2. Compute собственных векторов ковариационной матрицы, в зависимости от вашего инструмента может быть вычислен с использованием предварительно определенных функций «EiG» или также «сингулярное значение descomposition "(svd в matlab). Если вы используете svd, он обычно возвращает 3 значения, первое значение - его матрицу, которая будет содержать собственные векторы, этой матрицы, если вы хотите измерения «k», вы берете столбцы «k», и они являются вашими главными компонентами.

Heres моя реализация в октаве PCA, я использовать файл pca.m определить мой расчет PCA и ex7_pca.m использовать его для dimensinality сокращения для этого конкретного случая: https://github.com/llealgt/standord_machine_learning_exercices/blob/master/machine-learning-ex7/ex7/pca.m

https://github.com/llealgt/standord_machine_learning_exercices/blob/master/machine-learning-ex7/ex7/ex7_pca.m

1

Анализ основных компонентов (PCA) представляет собой статистический метод, который выполняет ортогональное преобразование для преобразования набора наблюдений возможных коррелированных переменных в набор значений линейно некоррелированных переменных, называемых главными компонентами.

Число компонентов после трансформации PCA равно числу переменных. Это преобразование определяется таким образом, что первый главный компонент имеет наибольшую возможную дисперсию (то есть он учитывает как можно большую часть изменчивости данных), и каждый последующий компонент, в свою очередь, имеет наибольшую дисперсию, возможную при что он ортогонален предыдущим компонентам. Полученные векторы представляют собой некоррелированный ортогональный базисный набор.

Как правило, люди берут столько компонентов, что учитывают 99% -ную дисперсию, которая будет намного меньше, чем общее количество переменных.

Ссылки:

https://stats.stackexchange.com/a/140579/86202

http://scikit-learn.org/stable/modules/decomposition.html#pca

https://en.wikipedia.org/wiki/Principal_component_analysis

Смежные вопросы