Я пытаюсь построить прогностическую модель в R, используя, например, Логистическую регрессию или деревья принятия решений (или любой другой метод, подобный этим). В дополнение к классификационной переменной (например, наличие или отсутствие заболевания) набор данных включает такие переменные, как пол, возраст, ИМТ, статус курения и т. Д.Предиктивная модель (классификация) с предвзятыми данными
Переменная sex очень важна для моей модели, и я хочу, чтобы она была частью предикторов. Однако во время исследовательского анализа я понял, что более 2/3 наблюдений были получены от женщин-респондентов, что не является реальной долей женского населения.
Что я могу сделать, чтобы принять это во внимание? Я имею в виду, что я не хочу, чтобы модель давала женщинам больший риск (например) только потому, что есть больше наблюдений, чем те, которые получены от респондентов-мужчин.
Большое спасибо.
Это не конкретный вопрос программирования и, следовательно, не подходит для переполнения стека. Если вам нужен совет со статистическим анализом, вы должны отправить сообщение на [stats.se]. – MrFlick
Должно быть перенесено в CV; но вы можете использовать взвешивание –