2016-10-20 3 views
-3

У меня есть ФР, который выглядит как:Создание кластеров в R

selection.body selection.hair selection.eyes selection.breasts selection.butt selection.skin   
normal   blonde   other    large   medium   tanned 
normal   blonde   other    xl   medium   tanned 
normal   blonde   other    large   medium   tanned 
chubby   blonde   blue    xl   large   tanned 
slim   blonde   other   medium   small   white 

Давайте представим этот набор данных в качестве ответа на опрос:

  • каждая строка представляет собой выбор одного ответчика, выбрав его предпочтение от закрытого набора предпочтений.

То, что я уже делал, проверяет частоты каждого выбора, но я хочу двигаться вперед с этим.

Моя цель состоит в том, чтобы:

  • определить наиболее распространенные комбинации вариантов.

  • группировать пользователей на основе этой комбинации.

  • корреляции между параметрами

Спасибо за ваши подсказки.

+0

Попробуйте 'data.table'. Следующего синтаксиса должно быть достаточно, чтобы ответить на первые два вопроса: 'dt [,. (Count = .N),. (Col1, col2 ... и т. Д.)]'. Для третьего вопроса попробуйте '? Cor' из базы и' corrplot'. –

+1

Мне кажется, вы просто передаете свои задания другим! – 989

+0

Я не просил какого-либо кода. Я просто прошу мозгового штурма и начинаю намекать. Мне кажется, у вас много времени на ваших руках. – xxxvinxxx

ответ

0

Обнаружение наиболее распространенных комбинаций - это не кластеризация, а частый набор полезных ископаемых.

Вы пробовали априори?

+0

. Я придумал, чтобы найти корреляцию между несколькими категориальными переменными, логарифмической моделью с помощью MASS, а затем графиком мозаики следующим образом: https: //cran.r-project .org/веб/пакеты/vcdExtra/виньетки/VCD-tutorial.pdf. Очень полезно. Но на самом деле это не кластеризация. О чем априори? – xxxvinxxx

Смежные вопросы