K означает, кластеризацию на гетерогенных данных

-2

Набор данные заболевания у меня выглядит следующим образом -K означает, кластеризацию на гетерогенных данных

2 21 24 36 
2 21 25  
3 12 15 19

Где первый атрибут является заболеванием (например, простуда) и другие признаки являются симптомами заболевания.

Как создать кластеры?

Может ли первый атрибут быть помечен в сформированный кластер?

Или что еще я могу сделать? Применить k-средства по каждому набору данных отдельно? Или мне нужно искать данные для классификации данных?

источник

2015-03-05 Ankit Karwa

Вы запрашиваете подходящий алгоритм кластеризации или ищете кого-то для публикации решения? Если вы ищете алгоритм, я предлагаю начать с предложения по Википедии, а затем вернуться сюда, если у вас есть конкретные вопросы о том, как его реализовать. – sprinter

Если у вас есть ярлыки, используйте ** классификацию **, а не кластеризацию. Также k-означает, что работает только для числовых данных, где * среднее значение * может быть вычислено (поэтому все-таки называется k-средством ...) –

Как насчет ваших данных неоднородно? Не могли бы вы объяснить больше о том, как представлены симптомы (например, каждый столбец является симптомом или каждый номер кода для другого симптома или что-то еще)? – seaotternerd

Предполагая, что вы пытаетесь сгруппировать «болезни» в соответствии с их «симптомами» и хотели бы использовать Kmeans по данным симптомов, тогда вы можете использовать этикетки болезни как форму классификатора, чтобы судить о чистоте (иначе говоря, «добро») вашей кластеризации.

Поскольку вы сказали, что существует 37 симптомов и 9 заболеваний, каждый экземпляр вашего набора данных будет 37-мерным, чтобы рассчитать среднее значение, и каждый экземпляр также будет присвоен метке (заболеваниям) класса между 1-9.

Теперь все, что вам нужно, это простая реализация Kmeans, и все должно быть в порядке. Вы можете использовать ярлыки болезней, которые у вас есть a priori, а затем посмотреть, как получилось «хорошее» ваше кластеров. См. here для получения дополнительной информации о расчете чистоты, а также this SO question за дополнительную информацию.

источник

2015-03-08 14:01:38

K означает, кластеризацию на гетерогенных данных

ответ

Смежные вопросы