2016-09-23 2 views
-1

Допустим, у меня есть набор переменных (векторов, все они с той же длиной N): X1, X2, X3, X4, X5, X6 ... Xn. и временные ряды Y (с такой же длиной N), которые зависят от некоторых переменных X.Найти наиболее значимые переменные в наборе данных

мне нужен алгоритм, чтобы определить, какие из переменных Х наиболее коррелирует с Y. i.e Мне нужно отбросить наименее значимые переменные и получить влиятельные переменные MOST на Y.

Пример:

Допустим, мы хотим определить, что влияет на веб-трафик конкретного ИТ-сайта. И у нас есть 5 ключевых слов: keyword1, keyword2, keyword3, keyword4 и keyword5.

Допустим, у нас есть ключевые слова объем поиска на Google (ключ1 = X1, X2 = key2, ключ3 = Х3, Х4 = КЛЮЧ4, key5 = X5) и общего интернет-трафика Y. Я хочу определить, какие ключевые слова из приведенного выше набора (X1, X2, X3, X4 или X5) наиболее значимы для общего веб-трафика на этом веб-сайте. Какие переменные я могу отбросить и какие из них перемещают наибольший трафик. (Предположим, что все эти векторы и временные ряды являются нормированными и стандартизованными временными рядами, которые варьируются от 0 до 100).

+0

Если вы считаете, что большинство переменных имеют линейную связь с выходом Y, вы можете сделать ступенчатую регрессию http://www.mathworks.com/help/stats/stepwisefit.html, чтобы определить какие переменные включить в вашу модель –

+1

Возможно, вы уже знаете это, но этот общий класс проблем известен в сообществе машинного обучения как * выбор функции *. В статье [Wikipedia] (https://en.wikipedia.org/wiki/Feature_selection) описывается ряд различных методов, которые вы могли бы попробовать, некоторые из которых реализованы прямо из коробки в Matlab's Statistics and Machine Learning Toolbox , Постепенная линейная регрессия, как упоминал @SomeGuy, является одним из них. Другим популярным является метод [lasso] (http://www.mathworks.com/help/stats/lasso.html). – khonegger

ответ

0

Один из способов сделать это - использовать функцию выбора svm.

Я успешно справился с использованием машины для создания функций. Пожалуйста, проверьте эту ссылку: http://www.tanmingkui.com/fgm.html