2015-10-13 3 views
0

У меня есть данные для выборки населения США. Набор данных для образца имеет N = 10 000 записей. Каждая строка описывается количественной пояснительной переменной E, цена которой влияет на вероятность R, что люди возвращают купленный предмет. Для образца и популяции необходимо иметь аналогичное распределение E, чтобы гарантировать достоверность статистических моделей, связывающих его с R.R: Настройка распределения разведательной переменной на известное ненормальное распределение

Существует существенное расхождение между частотными распределениями E в популяции США и в образце (см. Краткое описание ниже). В частности, нормальное распределение, по-видимому, не описывает распределение популяции.

Value of E Population Distribution of E Sample Distribution of E 
0-10  56.57% 92.95% 
10.01 - 20 6.90% 1.19% 
20.01 - 30 8.29% 1.38% 
30.01-40 5.87% 0.85% 
40.01 - 50 8.18% 0.32% 
50.01 - 60 4.63% 0.48% 
60.01-70 1.34% 0.32% 
70.01 - 80 1.50% 0.08% 
80.01 - 90 0.29% 0.49% 
90.01-100 3.72% 1.12% 
100.01-110 2.10% 0.69% 
110.01-120 0.24% 0.00% 
120.01+  0.35% 0.13% 

Какие хорошие вещи, чтобы сделать в R сделать образец E -распределения роднее населения, мы надеюсь, в соответствии с ней? Я попытался отфильтровать данные пробы с низкими значениями E безрезультатно. В то же время я не совсем уверен, какие преобразования использовать, поскольку большинство общих преобразований пытаются сопоставить данные с нормальным распределением, что, похоже, здесь не применимо.

Я сам считаю, что преобразования (возможно, включая весовые коэффициенты) E допустимы, удаление допустимых границ строк и создание новых строк запрещено - но я был бы признателен за любые данные о том, какие операции обычно считаются допустимыми в контекстах, аналогичных к моему.

Спасибо за ваш вклад.

Бест,

PDE

+0

Это действительно конкретный вопрос? Как бы вы сделали это на любом языке. Если у вас нет ответа на этот вопрос, возможно, этот вопрос лучше подходит для [stats.se], где обсуждаются статистические темы. – MrFlick

+0

Я действительно опубликовал на Cross Validated, так как теоретический/статистический аспект этого вопроса довольно силен. Я надеялся, однако, также получить представление о том, как люди используют R, чтобы попытаться «подгонять» данные в известные ненормальные распределения. Я широко использую R для обеспечения нормальности, но это первый раз, когда мне приходилось обращаться с таким вопросом. – PDE

ответ

0

Лучший способ это было бы с использованием интервалов прогнозирования. Понятно, что большая часть вашего образца имеет очень низкие значения для E. Это означает, что вы относительно уверены в прогнозируемом значении R для низких значений E. Однако, поскольку вы двигаетесь дальше от диапазона ваших данных (то есть очень высокие значения E), вы гораздо менее уверены в своих прогнозах для R.