У меня есть данные для выборки населения США. Набор данных для образца имеет N = 10 000 записей. Каждая строка описывается количественной пояснительной переменной E, цена которой влияет на вероятность R, что люди возвращают купленный предмет. Для образца и популяции необходимо иметь аналогичное распределение E, чтобы гарантировать достоверность статистических моделей, связывающих его с R.R: Настройка распределения разведательной переменной на известное ненормальное распределение
Существует существенное расхождение между частотными распределениями E в популяции США и в образце (см. Краткое описание ниже). В частности, нормальное распределение, по-видимому, не описывает распределение популяции.
Value of E Population Distribution of E Sample Distribution of E
0-10 56.57% 92.95%
10.01 - 20 6.90% 1.19%
20.01 - 30 8.29% 1.38%
30.01-40 5.87% 0.85%
40.01 - 50 8.18% 0.32%
50.01 - 60 4.63% 0.48%
60.01-70 1.34% 0.32%
70.01 - 80 1.50% 0.08%
80.01 - 90 0.29% 0.49%
90.01-100 3.72% 1.12%
100.01-110 2.10% 0.69%
110.01-120 0.24% 0.00%
120.01+ 0.35% 0.13%
Какие хорошие вещи, чтобы сделать в R сделать образец E -распределения роднее населения, мы надеюсь, в соответствии с ней? Я попытался отфильтровать данные пробы с низкими значениями E безрезультатно. В то же время я не совсем уверен, какие преобразования использовать, поскольку большинство общих преобразований пытаются сопоставить данные с нормальным распределением, что, похоже, здесь не применимо.
Я сам считаю, что преобразования (возможно, включая весовые коэффициенты) E допустимы, удаление допустимых границ строк и создание новых строк запрещено - но я был бы признателен за любые данные о том, какие операции обычно считаются допустимыми в контекстах, аналогичных к моему.
Спасибо за ваш вклад.
Бест,
PDE
Это действительно конкретный вопрос? Как бы вы сделали это на любом языке. Если у вас нет ответа на этот вопрос, возможно, этот вопрос лучше подходит для [stats.se], где обсуждаются статистические темы. – MrFlick
Я действительно опубликовал на Cross Validated, так как теоретический/статистический аспект этого вопроса довольно силен. Я надеялся, однако, также получить представление о том, как люди используют R, чтобы попытаться «подгонять» данные в известные ненормальные распределения. Я широко использую R для обеспечения нормальности, но это первый раз, когда мне приходилось обращаться с таким вопросом. – PDE