2015-11-05 1 views
-1

Я пытаюсь построить прогностическую модель в R, используя, например, Логистическую регрессию или деревья принятия решений (или любой другой метод, подобный этим). В дополнение к классификационной переменной (например, наличие или отсутствие заболевания) набор данных включает такие переменные, как пол, возраст, ИМТ, статус курения и т. Д.Предиктивная модель (классификация) с предвзятыми данными

Переменная sex очень важна для моей модели, и я хочу, чтобы она была частью предикторов. Однако во время исследовательского анализа я понял, что более 2/3 наблюдений были получены от женщин-респондентов, что не является реальной долей женского населения.

Что я могу сделать, чтобы принять это во внимание? Я имею в виду, что я не хочу, чтобы модель давала женщинам больший риск (например) только потому, что есть больше наблюдений, чем те, которые получены от респондентов-мужчин.

Большое спасибо.

+0

Это не конкретный вопрос программирования и, следовательно, не подходит для переполнения стека. Если вам нужен совет со статистическим анализом, вы должны отправить сообщение на [stats.se]. – MrFlick

+0

Должно быть перенесено в CV; но вы можете использовать взвешивание –

ответ

0

Об этом можно говорить здесь: https://stats.stackexchange.com/questions/6067/does-an-unbalanced-sample-matter-when-doing-logistic-regression. Это скорее вопрос статистики, чем вопрос R. Короткий ответ - это не проблема. Обратите внимание на окончательный ответ внизу, когда говорится, что вы можете сбалансировать выборку самостоятельно, а затем вспомнить, что ваша модель представляет собой оценку апостериорной вероятности, предполагая, что классы одинаково распространены. Вы можете на самом деле сделать это в этом случае, и это будет точным предположением, поскольку вы знаете истинную долю мужчин и женщин в своем населении. Предполагая, что у вас иначе есть достаточные данные, вы можете просто случайно удалить половину женских наблюдений. Вы можете просто возиться. Я часто нахожу лучший способ узнать, работает ли что-то, попробовать в обоих направлениях и посмотреть, не изменилось ли это.