2016-03-14 12 views
4

Каковы различные меры, доступные для проверки на мультиколлинеарность, если данные содержат как категориальные, так и непрерывные независимые переменные?Многоколлинеарность категориальных переменных

Могу ли я использовать VIF путем преобразования категориальных переменных в фиктивные переменные? Есть ли фундаментальный недостаток в этом, так как я не мог найти какой-либо справочный материал в Интернете?

+0

Да, вы можете использовать VIF с категориальными переменными в качестве манекенов. Думаю, именно так вы используете их в своей логистической регрессии. Взгляните на [этот вопрос] (http://stats.stackexchange.com/questions/67309/how-to-test-for-multicollinearity-among-dummy-explanatory-variables) – lrnzcig

ответ

0
Can I use VIF by converting categorical variables into dummy variables ? 

Да, вы можете. В этом подходе нет фундаментальных недостатков.

if the data contains both categorical and continuous independent variables? 

Мультиколлинеарность не волнует, если это категорический переменная или переменная целое. Нет ничего особенного в категориальных переменных. Преобразуйте свои категориальные переменные в двоичные файлы и обрабатывайте их как все другие переменные.

Я предполагаю, что ваша озабоченность будет заключаться в категориальных переменных, которые должны быть сопоставлены друг с другом, и это является серьезной проблемой. Предположим, что доля случаев в ссылочной категории мала. Предположим, что существует 3 категориальных переменных: избыточный вес, нормальный, недостаточный вес. Мы можем превратить это в 2 категориальные переменные. Затем, если данные одной категории очень малы (например, у обычных людей 5 из 100, а все остальные 95 человек имеют недостаточный вес или избыточный вес), переменные индикатора обязательно будут иметь высокие VIF, даже если категориальная переменная не связана с другими переменными в модель регрессии.

What are the different measures available to check for multicollinearity 

Одним из способов выявления мультиколлинеарности является взять корреляционную матрицу данных, и проверить собственные значения корреляционной матрицы.

Собственные значения, близкие к 0, указывают, что данные скоррелированы.

Смежные вопросы