Проблема: у меня есть две группы многомерных гетерогенных данных. Я придумал простой иллюстративный пример ниже. Обратите внимание, что некоторые столбцы являются дискретными (возраст), в то время как некоторые из них являются двоичными (пол), а другой - даже упорядоченной парой (размер пенты).многомерная кластеризация данных
Person Age gender height weight pant_size
Control_1 55 M 167.6 155 32,34
Control_2 68 F 154.1 137 28,28
Control_3 53 F 148.9 128 27,28
Control_4 57 M 167.6 165 38,34
Control_5 62 M 147.4 172 36,32
Control_6 44 M 157.6 159 32,32
Control_7 76 F 172.1 114 30,32
Control_8 49 M 161.8 146 34,34
Control_9 53 M 164.4 181 32,36
Person Age gender height weight pant_size
experiment_1 39 F 139.6 112 26,28
experiment_2 52 M 154.1 159 32,32
experiment_3 43 F 148.9 123 27,28
experiment_4 55 M 167.6 188 36,38
experiment_5 61 M 161.4 171 36,32
experiment_6 48 F 149.1 144 28,28
Вопрос заключается в том, что вся экспериментальная группа значительно отличается от всей контрольной группы?
Или, грубо говоря, они образуют два разных кластера в пространстве [возраста, пола, высоты, веса, pant_size]?
Общее представление о том, что я пробовал до сих пор, - это метрика, которая сравнивает соответствующие столбцы экспериментальной группы с теми, которые находятся в контроле; метрика затем берет сумму оценок столбцов (см. ниже). Выбирается несколько произвольный порог, чтобы решить, отличаются ли эти две группы. Этот произвол смешивается с взвешиванием столбцов, который также несколько произволен. Примечательно, что эти подходы хорошо подготовлены к реальной проблеме, но я должен ее формализовать. Мне интересно, похож ли такой подход на какие-либо существующие подходы или если другие широко распространенные подходы более широко приняты?
Person Age gender height weight pant_size
experiment_1 39 F 139.6 112 26,28
experiment_2 52 M 154.1 159 32,32
experiment_3 43 F 148.9 123 27,28
experiment_4 55 M 167.6 188 36,38
experiment_5 61 M 161.4 171 36,32
experiment_6 48 F 149.1 144 28,28 metric
column score 2 1 5 1 7 16
Поскольку возможно, что некоторые столбцы могут отличаться между контролем и экспериментом, а некоторые - нет, вы можете попробовать двухпробочный Т-тест (или некоторые его варианты), чтобы проверить, не зависит ли каждая переменная относительно две группы имеют существенную разницу. Для категориальной переменной (пол) вы можете выполнить проверку пропорций, чтобы увидеть, есть ли у каждой группы больше или меньше женщин/мужчин. Я полагаю, что также можно использовать тест на квадратную квадратуру по гендерной переменной. – chattrat423