2013-04-04 5 views
0

Я создал два алгоритма кластеризации: k-средство и divisive, возможно, позже я также добавлю агломерат. Мне нужно проанализировать, насколько хороши они данные с высоким размером, и для этого мне нужно рассчитать среднее/суммарное расстояние до центра кластеров. В случае k-средств это легко, у меня есть центроид, но как найти центр в алгоритме divisive/aglomerative? Пока я здесь: Я в настоящее время внедряю дистанцию ​​Euclede, Manhattans и Pearsons, есть ли еще дистанционные меры, которые я мог бы использовать? Спасибо заранее!Анализ кластеров - поиск центра кластера

ответ

0

Целью моей работы является анализ этих кластеров, когда им приходится создавать кластеры из данных с большой размерностью. Трудно их оценить, и очень маловероятно, что результат будет полностью справедливым, поэтому я собираюсь использовать среднее, накопленное расстояние между записями в одном кластере и минимальное расстояние между двумя записями из разных кластеров. О том, как найти центр кластера в иерархических алгоритмах кластеризации - та же самая формула, используемая в k-значении, используемая для пересчета центроида после каждой итерации.

1

Вы можете получить эту книгу:

  • Энциклопедии расстояний, Мишель Дез, Елена Дез, 590 страниц.

, который охватывает многие функции альтернативного расстояния, которые вы могли бы использовать.

Возможно несколько сто различных расстояния ...

Однако, вы также должны смотреть в ваш метод оценки - если она медианы на основе, она будет быть смещена в стороне к-средств. Таким образом, сравнение, вероятно, несправедливо.

Кроме того, если вы используете искусственные данные, убедитесь, что вы не несправедливо относитесь к одному методу над другим, потому что этот метод коррелирует с тем, как вы генерируете свои данные (например, если вы создаете кластеры Гаусса, он предпочитает такие методы, как k-mean).

Смежные вопросы