2016-07-26 2 views
0

Как определить, какие болезни группируются вместе? У меня есть набор данных с пациентами и их заболеваниями. Он закодирован как HOHT = 1, если он у него есть, и HOHT = 0, если у него его нет.Определите, какое заболевание кластерное вместе

Ниже приведен пример данных. Как я могу определить, какие заболевания чаще всего встречаются друг с другом, не написав кучу, если это так? Цель состоит в том, чтобы создать что-то вроде диаграммы Венна или дендрограммы, свидетельствующей о перекрытии болезней.

Moya Hypothyroid Hyperthyroid Celiac 
    1  1   0    0 
    1  1   0    0  
    0  0   1    1 
    0  0   0    0 
    1  1   0    0 
    1  0   1    0 
    1  1   0    0 
    1  1   0    0 
    0  0   1    1 
    0  0   1    1 

ответ

1

Самый простой подход, который я могу думать о том, чтобы взглянуть на корреляционной матрицы через proc corr:

data diseases; 
input Moya Hypothyroid Hyperthyroid Celiac; 
cards; 
    1  1   0    0 
    1  1   0    0  
    0  0   1    1 
    0  0   0    0 
    1  1   0    0 
    1  0   1    0 
    1  1   0    0 
    1  1   0    0 
    0  0   1    1 
    0  0   1    1 
    ; 
run; 

proc corr data = diseases out = disease_corr; run; 

Есть различные другие варианты, но я не уверен, является ли этот вопрос действительно лучше всего подходит для этого сайта, поскольку он очень широк и больше о статистике, чем программировании. Если вы столкнетесь с более конкретной проблемой, не стесняйтесь задавать другой вопрос.

Смежные вопросы