-1

Я хочу сделать кластеризацию k-классов для классификации данных тестирования на основе данных обучения, оба из которых имеют 3 класса (1,2 и 3).k-означает кластеризацию для классификации данных тестирования

Как бы классифицировать набор данных тестирования, используя размер кластера, например. k = 10 в километрах (например, с использованием Matlab)? Я знаю, что у меня может быть k = 3, а затем использовать ближайшего соседа для идентификации данных на основе его ближайшего размера кластера ... но не уверен, что я буду использовать для других значений k = 3? Как бы вы отметили каждый из этих 10 кластеров?

Благодаря

+0

Почему это не работает для k = 10 кластеров? –

ответ

0

Немного неясно, что именно вы хотите сделать, хотя вот схема из того, что я понимаю.

Когда вы кластеризуете данные, ярлыки в идеале не присутствуют, поскольку вы используете кластеризацию, чтобы получить представление о данных или использовать его для предварительной обработки.

Хотя, если вы хотите выполнить кластеризацию, а затем присвоить идентификатор класса новому набору данных, основанному на близости центров кластера, вы можете сделать следующее.

Сначала вы выбираете k путем начальной загрузки или другими способами, возможно, используете коэффициенты силуэта. Когда вы получите центры кластеров, проверьте, какой центр ближе всего к новому datapoint, и соответствующим образом присваивайте идентификатор класса.

В таких случаях вам может быть интересно использовать Rand Index или Adjusted Rand Index, чтобы получить качество кластера.

1

Классификация 10 кластеров не будет отличаться от классификации 3-х кластеров. Количество кластеров, заданных k-средствами, не зависит от количества «классов» в данных. k-mean - это неконтролируемый алгоритм обучения, что означает, что он не учитывает класс данных обучения во время обучения.

алгоритм будет выглядеть примерно так:

distances = dist(test_point, cluster_centers) 
cluster = clusters[ min(distances) ] 
class = mode(cluster.class) 

где мы находим кластер с минимальным расстоянием между центром кластера и нашей тестовой точкой, то мы находим наиболее общий ярлык класса среди элементов, содержащихся в том, что минимально удаленный кластер.

Смежные вопросы