я задал этот вопрос также на «Cross Validated» форума, но без ответа до сих пор, так что я пытаюсь также здесь:вычисления матрицы подобия со смешанными данными
Я хотел бы вычислить матрицу подобия (я будет использоваться для целей кластеризации) из моих данных (данные об отказе от автомобильной компании). Данные состоят из этих переменных:
ДАТА НАЧАТЬ + ВРЕМЯ (дд/мм/гггг/час/мм/с), ПРОДОЛЖИТЕЛЬНОСТЬ (в секундах), ДЕНЬ НЕДЕЛИ (mon, tue, ...), РАБОЧАЯ КОМАНДА (1,2,3), ЛОКАЛИЗАЦИЯ (1,2,3, ..., 20), НЕИСПРАВНОСТЬ ТИП
Из этого ясно, что существуют непрерывные и категориальные данные. Какой метод вы предложите рассчитать сходства между типами сбоев? Я думаю, что я не могу использовать евклидову дистанцию или сходство Гоу. Заранее спасибо.
Это зависит от вашей цели. С какой целью вы хотите определить сходство? – user31264
Поскольку я хотел бы выполнить кластерный анализ данных (иерархическая кластеризация) –
Вы должны дать другую неделю, чтобы ответить не ** всего на 5 часов **. Лучше не спрашивать, не перекрестно проверять, перекрестно проверять. –