не могли бы вы дать мне некоторые подсказки для определения характера недостатка для отсутствующих значений категориальных переменных? Я имею в виду, что я быстро искал ученого-разработчика Google, но я не нашел ничего связанного с этим. Как я мог понять, если отсутствующие значения отсутствуют полностью случайно, они отсутствуют случайно или, наконец, их не хватает случайно? Кроме изучения домена я ничего не могу придумать. Приветствуются ссылки на некоторые документы, спасибо заранее. (Я добавлю его в среду sas, но вопрос не связан конкретно с этим языком).определить характер пропусков для категориальных переменных
ответ
Поскольку вы отметили это как SAS, одним из способов, который вы могли бы предпринять, было бы создание логической переменной для каждой из ваших категориальных переменных, указывающих, имеет ли она недостающее значение в каждой строке. Затем вы можете делать любой анализ, который вам нравится, по частоте отсутствующих значений, используя флаги. Например. вы можете использовать proc corr
, чтобы увидеть, соответствуют ли отсутствующие значения одной переменной значениям других переменных.
E.g. Предположим, у вас есть такую ситуацию:
data example;
set sashelp.class;
if AGE > 14 then call missing(SEX);
SEX_MISSING_FLAG = missing(SEX);
run;
Тогда вы могли бы запятнать его, выполнив следующие действия:
proc corr data = example outp= corr;
var age weight height sex_missing_flag;
run;
Выход:
_TYPE_,_NAME_,Age,Weight,Height,SEX_MISSING_FLAG
MEAN,,13.32,100.03,62.34,0.26
STD,,1.49,22.77,5.13,0.45
N,,19.00,19.00,19.00,19.00
CORR,Age,1.00,0.74,0.81,0.78
CORR,Weight,0.74,1.00,0.88,0.64
CORR,Height,0.81,0.88,1.00,0.55
CORR,SEX_MISSING_FLAG,0.78,0.64,0.55,1.00
Спасибо за попытку @ user667489, но proc corr не будет работать для категориальных переменных (как многоуровневых, так и манекенов). Если вы будете управлять такими категориальными переменными, как непрерывный, то код proc corr будет работать, но не принесет никакого полезного результата. Это потому, что линейная корреляция, применяемая к категориальной переменной, не имеет смысла. – stat
Это не самый сложный пример, но я думаю, что приведенный выше код демонстрирует то, что вы могли бы обнаружить. – user667489
- 1. Определить значение в зависимости от категориальных переменных
- 2. Многоколлинеарность категориальных переменных
- 3. Удаление категориальных переменных facet_grid
- 4. Перекодирование категориальных переменных/факторов
- 5. Корреляция для нескольких категориальных переменных tableau
- 6. pyspark: подготовка категориальных переменных для kmeans
- 7. Графический график для трех категориальных переменных
- 8. Уменьшить количество уровней для больших категориальных переменных
- 9. Создание категориальных переменных из взаимоисключающих фиктивных переменных
- 10. Обработка категориальных переменных в StreamingLogisticRegressionwithSGD
- 11. Подмножество категориальных переменных в R
- 12. Панды уменьшить количество категориальных переменных
- 13. GroupBy с комбинациями категориальных переменных
- 14. Преобразование категориальных переменных в числа
- 15. Вектор категориальных переменных в матрицу
- 16. Определенные уровни категориальных переменных несущественны
- 17. участок категориальных переменных с R
- 18. Агрегация категориальных переменных w/Dimple.js
- 19. Сортировка категориальных переменных в ggplot
- 20. Ddply и резюме категориальных переменных
- 21. Двухсторонний график рассеяния категориальных переменных
- 22. кодирование категориальных переменных в libsvm
- 23. Как определить «характер
- 24. Вычисление перекрытия (и меры расстояния) для категориальных переменных в R
- 25. Соответствующие наблюдения, основанные на сходстве категориальных переменных
- 26. Перекодирование категориальных переменных на наиболее распространенное значение
- 27. Анализ рыночной корзины с использованием категориальных переменных
- 28. Иерархическое моделирование категориальных переменных взаимодействий в PyMC3
- 29. Показать% вместо отсчетов в диаграммах категориальных переменных
- 30. корреляционная матрица связки категориальных переменных в R
Добро пожаловать. Кажется, это лучше подходит для [Cross Validated] (http://stats.stackexchange.com/) (сайт статистики) по сравнению с здесь (сайт программирования). – LJW
Спасибо за приветствие и за подсказку! Я попробую там тоже :) – stat
Хорошо, но не перекрест-пост (сообщение на обоих сайтах одновременно); вероятно, лучше всего удалить этот и опубликовать его там. – LJW