Мне было поручено разработать регрессионную модель, изучающую участие учащихся в разных программах. Это очень хороший чистый набор данных, в котором подсчет числа учащихся соответствует распределению Пуассона. Я вписываю модель в R (используя как GLM, так и Zero Inflated Poisson.) Полученные остатки казались разумными.Регрессия для переменной скорости в R
Однако мне было поручено изменить количество студентов на «курс», который был рассчитан как ученики/school_population (каждая школа имеет собственное население.)) Теперь это уже не переменная счета, а пропорция между 0 и 1. Это считается «долей зачисления» в программе.
Эта «ставка» (учащиеся/население) больше не является Пуассоном, но, конечно же, не является нормальной. Итак, я немного потерян относительно соответствующего распределения и последующей модели для его представления.
Нормальное распределение журнала, похоже, хорошо соответствует этому параметру скорости, однако у меня много значений 0, поэтому он фактически не подходит.
Любые предложения по наилучшей форме распространения для этого нового параметра и как смоделировать его в R?
Спасибо!
Я думаю, что это случай использования переменной экспозиции/смещения (http://en.wikipedia.org/wiki/Poisson_regression#.22Exposure.22_and_offset). И, может быть, вопрос к http://stats.stackexchange.com/ – Rcoster
перекрестная ссылка на r-help: http://thread.gmane.org/gmane.comp.lang.r.general/291112 –