Набор данные заболевания у меня выглядит следующим образом -K означает, кластеризацию на гетерогенных данных
2 21 24 36
2 21 25
3 12 15 19
Где первый атрибут является заболеванием (например, простуда) и другие признаки являются симптомами заболевания.
Как создать кластеры?
Может ли первый атрибут быть помечен в сформированный кластер?
Или что еще я могу сделать? Применить k-средства по каждому набору данных отдельно? Или мне нужно искать данные для классификации данных?
Вы запрашиваете подходящий алгоритм кластеризации или ищете кого-то для публикации решения? Если вы ищете алгоритм, я предлагаю начать с предложения по Википедии, а затем вернуться сюда, если у вас есть конкретные вопросы о том, как его реализовать. – sprinter
Если у вас есть ярлыки, используйте ** классификацию **, а не кластеризацию. Также k-означает, что работает только для числовых данных, где * среднее значение * может быть вычислено (поэтому все-таки называется k-средством ...) –
Как насчет ваших данных неоднородно? Не могли бы вы объяснить больше о том, как представлены симптомы (например, каждый столбец является симптомом или каждый номер кода для другого симптома или что-то еще)? – seaotternerd