2014-11-24 5 views
0

не могли бы вы дать мне некоторые подсказки для определения характера недостатка для отсутствующих значений категориальных переменных? Я имею в виду, что я быстро искал ученого-разработчика Google, но я не нашел ничего связанного с этим. Как я мог понять, если отсутствующие значения отсутствуют полностью случайно, они отсутствуют случайно или, наконец, их не хватает случайно? Кроме изучения домена я ничего не могу придумать. Приветствуются ссылки на некоторые документы, спасибо заранее. (Я добавлю его в среду sas, но вопрос не связан конкретно с этим языком).определить характер пропусков для категориальных переменных

+0

Добро пожаловать. Кажется, это лучше подходит для [Cross Validated] (http://stats.stackexchange.com/) (сайт статистики) по сравнению с здесь (сайт программирования). – LJW

+0

Спасибо за приветствие и за подсказку! Я попробую там тоже :) – stat

+0

Хорошо, но не перекрест-пост (сообщение на обоих сайтах одновременно); вероятно, лучше всего удалить этот и опубликовать его там. – LJW

ответ

0

Поскольку вы отметили это как SAS, одним из способов, который вы могли бы предпринять, было бы создание логической переменной для каждой из ваших категориальных переменных, указывающих, имеет ли она недостающее значение в каждой строке. Затем вы можете делать любой анализ, который вам нравится, по частоте отсутствующих значений, используя флаги. Например. вы можете использовать proc corr, чтобы увидеть, соответствуют ли отсутствующие значения одной переменной значениям других переменных.

E.g. Предположим, у вас есть такую ​​ситуацию:

data example; 
    set sashelp.class; 
    if AGE > 14 then call missing(SEX); 
    SEX_MISSING_FLAG = missing(SEX); 
run; 

Тогда вы могли бы запятнать его, выполнив следующие действия:

proc corr data = example outp= corr; 
    var age weight height sex_missing_flag; 
run; 

Выход:

_TYPE_,_NAME_,Age,Weight,Height,SEX_MISSING_FLAG 
MEAN,,13.32,100.03,62.34,0.26 
STD,,1.49,22.77,5.13,0.45 
N,,19.00,19.00,19.00,19.00 
CORR,Age,1.00,0.74,0.81,0.78 
CORR,Weight,0.74,1.00,0.88,0.64 
CORR,Height,0.81,0.88,1.00,0.55 
CORR,SEX_MISSING_FLAG,0.78,0.64,0.55,1.00 
+0

Спасибо за попытку @ user667489, но proc corr не будет работать для категориальных переменных (как многоуровневых, так и манекенов). Если вы будете управлять такими категориальными переменными, как непрерывный, то код proc corr будет работать, но не принесет никакого полезного результата. Это потому, что линейная корреляция, применяемая к категориальной переменной, не имеет смысла. – stat

+0

Это не самый сложный пример, но я думаю, что приведенный выше код демонстрирует то, что вы могли бы обнаружить. – user667489

Смежные вопросы