-1

У меня есть проблема классификации, где у меня есть набор блоков, которые формируют мои данные. Одним из атрибутов, которые я могу использовать для классификации блоков, является тег, который по существу является номером блока другого блока. Блоки также имеют другие атрибуты (размер), которые могут использоваться для классификации. Атрибут «тег» в моем наборе данных можно использовать для классификации следующим образом: если 2 блока имеют 2 тега (номера блоков), принадлежащие одному кластеру, блоки или точки данных должны быть сгруппированы вместе. Здесь я не знаю заранее, какой номер кластера номер тега будет заблаговременно.классификатор, где атрибут зависит от идентификатора кластера

Block 1 [Tag 4] size 10 
Block 2 [Tag 3] size 20 
Block 3 [Tag 1] size 100 
Block 4 [Tag 2] size 110 

Здесь, на основе атрибута Tag, блока 1 и блока 2, блока 3 и 4 соответственно. также блок 3 и блок 4 блока 2 и блок 1 соответственно. Следовательно, блок 1, блок 2 может принадлежать идентификатору кластера 1, а блоки 3 и 4 могут принадлежать идентификатору кластера 2. также размер блоков 1,2 больше аналогичен размерам блоков 3,4. конечный результат классификации должен быть

cluster id 1: Block 1 , Block 2 
cluster id 2: Block 3 , Block 4 

Есть ли способ классифицировать такие точки данных? Насколько я понимаю, классификатор Наивного Байеса считает, что каждый атрибут не зависит друг от друга. Здесь атрибут (тег) зависит от будущего события (идентификатор кластера, в котором будет принадлежать номер маркированного тега). Какую форму/класс алгоритмов кластеризации я должен искать для решения этой проблемы? Один из подходов, который я могу придумать, - это использовать k-означает использование других атрибутов, таких как размер, а затем, когда я примерно знаю идентификаторы кластера, я добавляю этот идентификатор кластера в теги и использую его как атрибут для классификации. Существуют ли альтернативные более эффективные подходы к написанию классификаторов, где атрибуты зависят от самих результирующих кластеров? Любая помощь будет оценена по достоинству.

+1

Являются ли кластеры и классификационные метки одинаковыми? Не могли бы вы пояснить (например, пример)? – Ash

ответ

0

Эта цель не имеет смысла.

Ваши четыре блока и теги, образуют цикл:

1 -> 4 -> 2 -> 3 -> 1 

Почему это имеет смысл разбить это на две группы, 1 + 2 и 3 + 4?

k-средства и другие алгоритмы здесь не помогут. Вам нужно найти формальное свойство того, что является хорошим решением; затем найдите алгоритм для оптимизации этого свойства. k-mean минимизирует квадратурные отклонения - как это поможет вашей проблеме?

+0

Это примерный пример, по совпадению он образует цикл. рассматривают его как двудольный граф с (1,2) в 1 кластере и (3,4) в другом с ребрами от 1 кластера к другому. k-means полезен, потому что атрибут size может использоваться для классификации блоков в кластере. атрибут тега, однако, является будущим событием, которое нельзя использовать заранее. в настоящее время я сначала классифицирую блоки в кластеры с использованием размера, а затем использую теги, основываясь на том, к какому кластеру принадлежат. Это дает мне приличные результаты, но я хочу получить более точные результаты, так как атрибут тега является самым distingishable атрибутом в моем наборе данных. –

Смежные вопросы