2017-02-14 2 views
1

Нужно ли всегда удалять столбцы для горячего кодирования, чтобы предотвратить мультиколлинеарность? В решении здесь (https://www.kaggle.com/omarelgabry/titanic/a-journey-through-titanic/comments#138896) он упоминаетmulticollinearity для однократного кодирования

@Kevin Чанга Вам нужно удалить один столбец фиктивных переменных для избежать состояния мультиколлинеарности. Это состояние очень высоких корреляций между столбцами (независимые переменные) ; что означает, что можно предсказать из других. Следовательно, это тип нарушения данных, и если они имеются в данных, то статистические данные, сделанные об этих данных, могут быть ненадежными.

В растворах здесь, там не питание для мультиколлинеарности https://www.kaggle.com/sharmasanthosh/allstate-claims-severity/exploratory-study-on-ml-algorithms

Могу ли я знать, действительно ли это необходимо, или в какой ситуации мы определены, чтобы удовлетворить это?

ответ

-1

Если я должен ответить на ваш вопрос "Do we always need to remove a column for one-hot encoding to prevent multicollinearity?", то да.

Общим способом предотвращения мультиколлинеарности является удаление высококоррелированных предикторов из модели. Если у вас есть два или более факторов с высоким VIF, удалите его из модели. Поскольку они предоставляют избыточную информацию, удаление одного из коррелированных факторов обычно не уменьшает R-квадрат.

Или вы можете использовать регрессию неполных квадратов (PLS) или анализ основных компонентов, методы регрессии, которые сокращают количество предикторов до меньшего набора некоррелированных компонентов.

+0

Why Downvote? Не могли бы вы рассказать мне, что случилось? – Aaron

Смежные вопросы