Ваш вопрос не имеет ни одного ответа. В зависимости от домена существуют лучшие практики.
Как только вы определитесь с метрикой сходства, кластеризация обычно выполняется путем усреднения или поиска медоидов. См этих документов по кластерным двоичным данным примеров алгоритма:
- Карлос Ордоньесы. Кластеризация двоичных потоков данных с помощью K-средств. PDF
- Tao Li. Общая модель кластеризации двоичных данных. PDF
Для идей о мерах подобия см это онлайн "tool for measuring similarity between binary strings". Они упоминают: Сокал-Мишнер, Жаккар, Рассел-Рао, Хаманн, Соренсен, Антидиск, Снейт-Сокал, Роджер-Танимото, Очьяй, Юле, Андерберг, Кульчинский, Пири Пинь и Гауэр2, Точечный продукт, Косинус-коэффициент, Хэмминг-Дистрикт. Они также ссылаются на эти документы:
- Люк Б. Т., кластеризация двоичных объектов
- Лин Д. Теоретико-информационное Определение похожести.
- Toit, du S.H.C .; Steyn, A.G.W .; Stumpf, R.H .; Анализ графических разведочных данных; Глава 3, стр. 77, 1986; Springer-Verlag.
(я лично, как косинус. Существует также KL-дивергенция, и его Jensen расстояние аналог.)
Как насчет функции искажения, используемой в K-meloids? Он не очень отличается от евклидова расстояния. – Neo
@CRK K-meloids использует [расстояние Минковского] (http://en.wikipedia.org/wiki/Minkowski_distance) с p = 1, что является общим случаем евклидова расстояния, не так ли? – shn