Я хочу выполнить кластерного анализа для следующих данных (образец):Кластеризация двоичные данные
ID CODE1 CODE2 CODE3 CODE4 CODE5 CODE6
------------------------------------------------------------------
00001 0 1 1 0 0 0
00002 1 0 0 0 1 1
00003 0 1 0 1 1 1
00004 1 1 1 0 1 0
...
где 1 указывает на наличие этого кода для человека, и 0 отсутствие .. к-средства или иерархическая кластеризация, наиболее подходящая для кластеризации кодов для такого рода данных (около миллиона различных идентификаторов) и с какой дистанционной мерой? Если ни один из этих методов не подходит, как вы считаете наиболее подходящим?
Спасибо