-1

я задал этот вопрос также на «Cross Validated» форума, но без ответа до сих пор, так что я пытаюсь также здесь:вычисления матрицы подобия со смешанными данными

Я хотел бы вычислить матрицу подобия (я будет использоваться для целей кластеризации) из моих данных (данные об отказе от автомобильной компании). Данные состоят из этих переменных:

ДАТА НАЧАТЬ + ВРЕМЯ (дд/мм/гггг/час/мм/с), ПРОДОЛЖИТЕЛЬНОСТЬ (в секундах), ДЕНЬ НЕДЕЛИ (mon, tue, ...), РАБОЧАЯ КОМАНДА (1,2,3), ЛОКАЛИЗАЦИЯ (1,2,3, ..., 20), НЕИСПРАВНОСТЬ ТИП

Из этого ясно, что существуют непрерывные и категориальные данные. Какой метод вы предложите рассчитать сходства между типами сбоев? Я думаю, что я не могу использовать евклидову дистанцию ​​или сходство Гоу. Заранее спасибо.

+0

Это зависит от вашей цели. С какой целью вы хотите определить сходство? – user31264

+0

Поскольку я хотел бы выполнить кластерный анализ данных (иерархическая кластеризация) –

+0

Вы должны дать другую неделю, чтобы ответить не ** всего на 5 часов **. Лучше не спрашивать, не перекрестно проверять, перекрестно проверять. –

ответ

0

Нет, вам нужна специальная функция, которая представляет ваши знания о том, что данные означают в реальном мире. Предположительно, это будет главным образом применение веса к непрерывной разнице и двумерная простая матрица для дискретных категориальных переменных. Но не управляйте нашей цензурой экстремальных ценностей или фуззификации.

+0

Я боюсь, я не знаю, что вы имеете в виду :) Можете ли вы быть более конкретным? Может быть, пример поможет. Я хотел бы вычислить матрицу, поэтому я смогу выполнить иерархическую кластеризацию и найти отношения между типами сбоев. –

Смежные вопросы