2013-07-05 2 views
5

Я прочитал газету k-means++: The Advantages of Careful Seeding и не совсем понятно, алгоритм при условии, которое:K-средства ++ алгоритм

«Пусть D (х) обозначим кратчайшее расстояние от точки данных х до ближайшего центра мы уже выбраны.

1a. Выберите начальный центр равномерно c1 при случайном из X.

1b. Выберите следующий центр CI, выбирая Ci = х '∈ X с вероятностью (D (х')^2)/Sum_of (D (x)^2)

1 с. Повторите шаг 1b, пока мы не выбрали всего k центров.

2-4. Действуйте со стандартными к-означает алгоритм «

(Лучше смотреть на алгоритме в приведенной выше ссылке)

Тем шаг 1b. Что они означают» выбрать Ci = х»∈ X с вероятностью (D (x ')^2)/Sumof (D (x)^2) ». Они означают выбор элемента, который имеет наибольшую долю? И как выполнить такое вычисление может привести к выбору оптимальных центроидов?

+0

Не знаете, почему это получило -1. – icedwater

ответ

0

http://en.wikipedia.org/wiki/K-means%2B%2B

1. Choose one center uniformly at random from among the data points. 
    2. For each data point x, compute D(x), the distance between x and the nearest center that has already been chosen. 
    3. Choose one new data point at random as a new center, using a weighted probability distribution where a point x is chosen with probability proportional to D(x)2. 
    4. Repeat Steps 2 and 3 until k centers have been chosen. 
    5. Now that the initial centers have been chosen, proceed using standard k-means clustering. 
5

Функция D (x) определен для всех точек x ∈ X.

На шаге 1b мы должны выбрать точку, которая будет новым центром. Мы будем выбирать случайным образом между всеми точками (которые не являются центрами). Но мы не будем давать равных шансов каждому моменту; мы будем назначать разные вероятности для разных точек до того, как мы выберем. Эти вероятности должны составлять до 1.

Рассмотрим D (x)^2. Мы можем оценить это в каждой точке и добавить значения: Sum_of (D (x)^2).

Тогда мы можем присвоить каждой точке x 'вероятность, равную D (x')^2/Sum_of (D (x)^2). Эти вероятности составляют до 1 и дают больше шансов на удаленные точки от всех существующих центров.

+0

Почему мы не выбираем точку с наивысшей вероятностью вместо случайного выбора? –

+0

@ LongPhan: Я подозреваю, что это просто не работает, а также выбирает центры наугад. Помните, что выбор центров - это только первый шаг; то они должны быть отрегулированы и отрегулированы до тех пор, пока система не стабилизируется. Дело в том, что взвешенные вероятности работают лучше, чем однородные probablilites. Может быть, если начальные центры будут выбраны, как вы предполагаете, им придется идти дальше. Эмпирический ответ потребует нескольких часов работы над экспериментом; точный ответ может потребовать недели работы (или более) на доказательство. – Beta

+0

, как вы думаете, алгоритм в статье [Алгоритм выбора семенных выборок для k-сред] [http://thescipub.com/pdf/10.3844/jcssp.2010.60.66] лучше K-Means ++? –

Смежные вопросы