2013-07-27 2 views
1

Я хочу выполнить кластерного анализа для следующих данных (образец):Кластеризация двоичные данные

ID  CODE1  CODE2  CODE3  CODE4  CODE5  CODE6 
    ------------------------------------------------------------------ 
    00001  0   1   1   0   0   0 
    00002  1   0   0   0   1   1 
    00003  0   1   0   1   1   1 
    00004  1   1   1   0   1   0 
    ... 

где 1 указывает на наличие этого кода для человека, и 0 отсутствие .. к-средства или иерархическая кластеризация, наиболее подходящая для кластеризации кодов для такого рода данных (около миллиона различных идентификаторов) и с какой дистанционной мерой? Если ни один из этих методов не подходит, как вы считаете наиболее подходящим?

Спасибо

ответ

1

Нет, к-средства не делает много смысла для двоичных данных.

Потому что k-означает вычисления означает. Но каков средний вектор для двоичный данных?

Ваши кластерные «центры» не будут частью вашего пространства данных и ничего подобного вашим входным данным. Для меня это не кажется правильным «центром», когда он полностью отличается от ваших объектов.

Скорее всего, ваши кластерные «центры» будут больше похожи друг на друга, чем на фактические члены кластера, потому что они находятся где-то в центре, и все ваши данные находятся в углах.

Серьезно, исследуйте функции подобия для вашего типа данных. Затем выберите алгоритм кластеризации, который работает с этой функцией расстояния. Иерархическая кластеризация довольно общая, но очень медленная. Но вам не нужно использовать 40-летний алгоритм, вы можете захотеть взглянуть на более современные вещи.

Смежные вопросы