2016-09-06 2 views
-1

Проблема: у меня есть две группы многомерных гетерогенных данных. Я придумал простой иллюстративный пример ниже. Обратите внимание, что некоторые столбцы являются дискретными (возраст), в то время как некоторые из них являются двоичными (пол), а другой - даже упорядоченной парой (размер пенты).многомерная кластеризация данных

Person   Age gender height  weight pant_size 
Control_1  55 M  167.6  155  32,34 
Control_2  68 F  154.1  137  28,28 
Control_3  53 F  148.9  128  27,28 
Control_4  57 M  167.6  165  38,34 
Control_5  62 M  147.4  172  36,32 
Control_6  44 M  157.6  159  32,32 
Control_7  76 F  172.1  114  30,32 
Control_8  49 M  161.8  146  34,34 
Control_9  53 M  164.4  181  32,36 

Person   Age gender height  weight pant_size 
experiment_1 39 F  139.6  112  26,28 
experiment_2 52 M  154.1  159  32,32 
experiment_3 43 F  148.9  123  27,28 
experiment_4 55 M  167.6  188  36,38 
experiment_5 61 M  161.4  171  36,32 
experiment_6 48 F  149.1  144  28,28 

Вопрос заключается в том, что вся экспериментальная группа значительно отличается от всей контрольной группы?

Или, грубо говоря, они образуют два разных кластера в пространстве [возраста, пола, высоты, веса, pant_size]?

Общее представление о том, что я пробовал до сих пор, - это метрика, которая сравнивает соответствующие столбцы экспериментальной группы с теми, которые находятся в контроле; метрика затем берет сумму оценок столбцов (см. ниже). Выбирается несколько произвольный порог, чтобы решить, отличаются ли эти две группы. Этот произвол смешивается с взвешиванием столбцов, который также несколько произволен. Примечательно, что эти подходы хорошо подготовлены к реальной проблеме, но я должен ее формализовать. Мне интересно, похож ли такой подход на какие-либо существующие подходы или если другие широко распространенные подходы более широко приняты?

Person   Age gender height  weight pant_size 
experiment_1 39 F  139.6  112  26,28 
experiment_2 52 M  154.1  159  32,32 
experiment_3 43 F  148.9  123  27,28 
experiment_4 55 M  167.6  188  36,38 
experiment_5 61 M  161.4  171  36,32 
experiment_6 48 F  149.1  144  28,28  metric 

column score 2 1  5   1  7   16 
+0

Поскольку возможно, что некоторые столбцы могут отличаться между контролем и экспериментом, а некоторые - нет, вы можете попробовать двухпробочный Т-тест (или некоторые его варианты), чтобы проверить, не зависит ли каждая переменная относительно две группы имеют существенную разницу. Для категориальной переменной (пол) вы можете выполнить проверку пропорций, чтобы увидеть, есть ли у каждой группы больше или меньше женщин/мужчин. Я полагаю, что также можно использовать тест на квадратную квадратуру по гендерной переменной. – chattrat423

ответ

0

Лечить это как классификации, а не проблемы кластеризации, если предположить, что результаты «кластер».

Потому что вам не нужно находить эти кластеры, но они являются предопределенными классами.

«переписано» подход заключается в следующем:

поездов различных классификаторов к предсказать, находится ли точка из данных A или B данных. Если вы можете получить гораздо лучшую точность, чем 50% (при условии сбалансированных данных), то геометры действительно отличаются. Если все ваши классификаторы не хуже случайных (и вы не ошибались), то два набора, вероятно, слишком похожи.

Смежные вопросы