2015-05-06 2 views
0

У меня есть облачные метки A, B, C. каждый тег облака состоит из объектов (слов) e, f, g ...Кластеризация текстур с помощью Rapidminer

Я хочу найти хорошие слова, которые разделяют теги облаков в (в основном) независимые кластеры. например,

слово e с облачным A и B, но не C ... поэтому e является хорошим seperator, чтобы получить 2 кластера.

Сейчас на сайте есть 100 000 cloudtags и 1.000.000 слов. и я хочу сделать то же самое, чтобы получить K-кластер. Облако может принадлежать двум кластерам, что не так важно.

Я знаю, что k-означает, но я не знаю, как преобразовать данные в числовые многомерные данные. Насколько я знаю, kmeans нужны числовые точки для создания кластеров.

Я также хотел бы использовать быстрый шахтер в качестве программного обеспечения, но любой алгоритм, программное обеспечение было бы весьма полезным в качестве основного ввода.

Заранее спасибо.

ответ

1

Вы не описываете кластеризацию.

Но функция (слово) для классификации «облачных тегов».

Посмотрите на деревья решений и метрики, используемые там, чтобы определить хорошие функции для разделения.

+0

это комментарий, а не ответ! –