Я хочу выполнить анализ кластеризации k в наборе из 10 точек данных, каждый из которых имеет массив из 4 числовых значений, связанных с ними. Я использую коэффициент корреляции Пирсона как метрику расстояния. Я сделал первые два шага алгоритма кластеризации k, которые были:k означает алгоритм кластеризации
1) Выберите набор начальных центров k кластеров. [Я выбрал случайно два начальных центра]
2) Назначьте каждый объект кластеру с ближайшим центром. [Я использовал коэффициент корреляции Пирсона в качестве расстояния метрики - смотрите ниже]
Теперь мне нужна помощь в понимании 3-й шаг в алгоритме:
3) вычисляем новые центры кластеров:
где X, в данном случае представляет собой четырехмерный вектор, а n - количество точек данных в кластере.
Как бы я мог рассчитать C (S), например, следующие данные?
# Cluster 1
A 10 15 20 25 # randomly chosen centre
B 21 33 21 23
C 43 14 23 23
D 37 45 43 49
E 40 43 32 32
# Cluster 2
F 100 102 143 212 #random chosen centre
G 303 213 212 302
H 102 329 203 212
I 32 201 430 48
J 60 99 87 34
Последний шаг алгоритма k означает повторение шагов 2 и 3, пока объект не изменит кластер, который достаточно прост.
Мне нужна помощь с шагом 3. Вычисление новых центров кластеров. Если кто-то сможет пройти и объяснить, как вычислить новый центр только одного из кластеров, это очень помогло бы мне.
почему бы не опубликовать этот quesiton здесь http://stats.stackexchange.com/ – gongzhitaao
спасибо за ссылку. У меня недостаточно репутации, чтобы публиковать фотографии в моих вопросах. Также я не знаю, как набирать формулы в вопросы. – cooldood3490