2015-02-28 2 views
3

В документах кластерного анализа, использующих метаэвристические алгоритмы, многие оптимизировали ошибку квантования среднего квадрата (MSE). Например, в [1] и [2].Какая цель оптимизирована внутрикластерной суммой расстояний или MSE?

У меня есть путаница с результатами. Они сказали, что они использовали MSE в качестве целевой функции. Но они сообщили значения результата в внутрикластерной сумме евклидовых расстояний.

K-Means минимизирует внутрикластерную сумму квадратов (WCSS) (от wiki) [3]. Я не мог найти, в чем разница между WCSS и MSE, когда используется евклидово расстояние в случае разницы при вычислении MSE.

В случае K-сред WCSS минимизирован, и если мы будем использовать ту же функцию MSE с алгоритмами метаэвристики, они также минимизируют ее. В этом случае, как меняется сумма евклидовых расстояний для K-средних и других?

Я могу воспроизвести результаты, показанные в статьях, если я оптимизирую внутрикластерную сумму евклидовых расстояний.

Я думаю, что я делаю что-то неправильно здесь. Кто-нибудь может мне с этим помочь.

Главный вопрос: Какие цели было ссылочные документы [1] и [2] оптимизируют, и какие функции ЦЕННОСТИ приведены в таблице?

ответ

1

K-средство оптимизирует (сумма внутри кластера) сумма квадратов aka variance aka сумма квадратов евклидовых расстояний.

Это легко увидеть, если вы изучите доказательство конвергенции.

Я не могу изучить эти две статьи, на которые вы ссылались. Они с дрянной Elsevier и paywalled, и я не буду платить $ 36 + $ 32, чтобы ответить на ваш вопрос.

Обновление: мне удалось получить бесплатную копию одного из них. Они называют это «MSE, среднеквадратичная ошибка квантования», но их уравнение является обычным внутрикластерным суммарным квадратом, не участвует; с теневой самопривязкой, прилагаемой к этому утверждению, а половина ссылок - это самопричисления ... похоже, что больше этот автор любит называть это иначе, чем все остальные. Похоже, мне нравится «изобретать колесо с другим именем». Я тщательно проверял их результаты. Я не говорю, что они ложные, я больше не проверял. Но «среднеквадратичная ошибка» не предполагает уверенности; это сумма квадратов ошибок.

Update: если «внутри кластера сумма» означает сумму попарных расстояний любых двух объектов, необходимо учитывать следующее:

Без потери общности, перемещать данные таким образом, что среднее значение равно 0. (Перевод Безразлично» t изменение евклидовых или квадратичных евклидовых расстояний).

sum_x sum_y sum_i (x_i-y_i)^2 
= sum_x sum_y [ sum_i (x_i)^2 + sum_i (y_i)^2 - 2 sum_i (x_i*y_i) ] 
= n * sum_x sum_i (x_i)^2 + n * sum_y sum_i (y_i) 
    - 2 * sum_i [sum_x x_i * sum_y y_i] 

Первые два слагаемых одинаковы. Итак, у нас есть 2n раз WCSS. Но с mu_i = 0, sum_x x_i = sum_y y_i = 0, и третий термин исчезает.

Если бы я не ввернуть это вычисление, то значит, асимметричный попарно квадрат евклидова расстояния в пределах кластера является же, как WCSS.

+0

Это всего лишь два примера многих других документов, которые используют сумму квадратных расстояний внутри кластера. Мне показалось, что цитаты мне тоже проблематичны. Есть ли проблема в оптимизации внутрикластерной суммы эвклидовых расстояний? В моем исследовании говорится, что если я не ошибаюсь, хотя они сказали оптимизировать MSE, но они оптимизировали внутрикластерную сумму эвклидовых расстояний. – phoxis

+0

Наименьший из ближайших кластеров всегда является ближайшим кластером наименьших квадратов. Поэтому, беря квадратный корень, обычно не наносит большого вреда. Предполагая, что для вас «внутренний кластер» является объектно-ориентированным, а не парным расстоянием. –

+0

Также я считаю, что в последнем случае есть тонкое равенство. –

Смежные вопросы