Я пытаюсь запустить анализ набора данных, который классифицирует компании в 20 разных отраслях промышленности и около 800 категорий. Каждая категория отрасли находится в ее собственной колонке. Вот пример dataframeR - группа по нескольким столбцам
df <- data.frame(biz.name=c("goog", "face", "eb"), worth=c(100, 200, 300),
cat1=c("social", "social", "social"), cat2=c(NA, "search", "finance"),
cat3=c(NA, NA, "commerce"))
Я хотел бы знать, как вести анализ по различным видам категорий. Например, как мне получить среднюю ценность разных категорий, «социальных» или «финансов». Каждая компания может иметь до 20 категорий (не повторяющихся в строке).
dplyr пакет мои нормальный идти к group_ метод, но сцепление не похож на работу для нескольких столбцов
cat.test <- df %>%
group_by(cat1:cat2) %>%
summarise (avg = mean(is.na(worth)))
Код производит измерение для каждой перестановки бизнеса с помощью комбинации нескольких категорий , скорее, что каждая категория индивидуально. В кадре выборки категория social должна иметь общую стоимость 600 и 300.
Я просмотрел несколько руководств, но не нашел тот, который может group_by для нескольких столбцов. Спасибо и дайте мне знать, если я смогу сделать этот вопрос более ясным.
[UPDATE: редактировать data.frame код]
op! извините, народ. i fixed – tom
Разве сумма не должна быть 600, а средняя 200. 600/3 = 200? – thelatemail