2016-03-16 3 views
-2

Предположим, что я сделал кластеризацию (используя 3 функции) и получил 4 кластера, обучение по набору точек данных.Как проверить, находится ли точка данных в пределах границы кластера или нет

В настоящее время на производстве я получаю другой набор точек данных и основываясь на значениях функций этой точки данных, мне нужно знать, попадает ли он в предварительно определенный кластер, который я сделал раньше или нет , Это не кластеризация, а скорее поиск того, попадает ли точка в предварительно определенный кластер.

Как определить, находится ли точка в кластере?

Нужно ли использовать линейную регрессию, чтобы найти уравнение границы, покрывающее кластер?

+1

Вы могли бы дать образец кода, который вы пробовали? – kmario23

+1

Пожалуйста, определите вашу проблему более четко. Вам нужно знать, попадает ли точка в * любой * из трех кластеров или находится ли она в указанном кластере? Вам нужно определить, находится ли он в выпуклом закрытии кластера или просто получить номер кластера, которому он будет назначен? Последнее из них, конечно же, просто забивает KMeans. – Prune

+0

Определить * граница *. –

ответ

0

Нет ответа на ваш вопрос. То, как новая точка назначается кластеру , является свойством самого кластера. Таким образом, решающее значение имеет «что такое процедура кластеризации, используемая в первую очередь». Каждый хорошо определенный метод кластеризации (в математическом смысле) предоставляет вам полное разбиение входных пространств, а не только конечный набор тренировок. Такие методы включают в себя k-средства, GMM, ...

Однако существуют исключения - методы кластеризации, которые являются просто эвристиками и не являются допустимыми проблемами оптимизации. Например, если вы используете иерархическую кластеризацию, не существует разбиения пространства, поэтому вы не можете правильно назначить новую точку для любого кластера, и вы останетесь с десятками одинаково правильных эвристических методов, которые будут что-то делать, но вы не можете сказать, какой из них верный. Эти эвристики включают в себя:

  • «ближайшая эвристику точка», которая является essentialy эквивалента обучения 1-NN на ваши кластерах
  • «построить действительную модель эвристику», которая является обобщением приведенного выше, где вы подходите некоторому классификатор (по вашему выбору), чтобы имитировать исходную кластеризацию (и выберите ее гиперпараметры с помощью перекрестной проверки).
  • «Что произойдет, если я повторно запустил кластеризацию», если вы можете повторно запустить кластеризацию из предыдущего решения, вы можете просто проверить, какой кластер он попадает в данную предыдущую кластеризацию в качестве отправной точки.
  • ...
Смежные вопросы