2015-06-25 2 views
-1

Если я выполняю PCA со 100 переменными, мой первый компонент объясняет 30% дисперсии. Хотя, когда я использовал 40 из них, это объясняет 48% дисперсии.Имеет ли количество переменных, используемых в СПС, влияние объяснения дисперсии?

Могу ли я сказать, что более важно работать с этими 40 переменными, потому что он объясняет 48% дисперсии при использовании PCA или это просто из-за эффекта «переменного размера»? (более переменный - больше шума ...)

Спасибо!

ответ

0

Практически по определению, чем больше переменных PCA вы используете, тем больше вы объясняете поезд дисперсия. Обычно точка - это что-то другое, например, объясняя дисперсию теста. Во многих реалистичных настройках объяснение большей части дисперсии поезда объясняет большую часть тестовой дисперсии только до точки: изначально добавление большего числа переменных поможет, но в конечном итоге это просто наносит ущерб. Следовательно, тот факт, что добавление более 39 переменных уменьшает дисперсию поезда, означает очень мало само по себе для тестовой дисперсии.

Чтобы найти количество переменных, оптимизирующих тестовый varance, вы можете использовать ряд методов, например, оценивая его через cross validation.

Смежные вопросы