У меня есть облачные метки A, B, C. каждый тег облака состоит из объектов (слов) e, f, g ...Кластеризация текстур с помощью Rapidminer
Я хочу найти хорошие слова, которые разделяют теги облаков в (в основном) независимые кластеры. например,
слово e с облачным A и B, но не C ... поэтому e является хорошим seperator, чтобы получить 2 кластера.
Сейчас на сайте есть 100 000 cloudtags и 1.000.000 слов. и я хочу сделать то же самое, чтобы получить K-кластер. Облако может принадлежать двум кластерам, что не так важно.
Я знаю, что k-означает, но я не знаю, как преобразовать данные в числовые многомерные данные. Насколько я знаю, kmeans нужны числовые точки для создания кластеров.
Я также хотел бы использовать быстрый шахтер в качестве программного обеспечения, но любой алгоритм, программное обеспечение было бы весьма полезным в качестве основного ввода.
Заранее спасибо.
это комментарий, а не ответ! –