Я пытаюсь решить следующую проблему:Тест для статистической разницы в пропорции с помощью R
Человек может быть классифицирована как либо GroupA, GroupB или GroupC.
Я хочу знать, как атрибут1 (или атрибут2) влияет на долю наблюдений в этих группах. Обратите внимание, что атрибут1: attribute2 имеет отношение 1: N. Атрибут 1 имеет пять возможных значений: A, B, C, D, E, в то время как атрибут2 имеет два возможных значения: A, B.
имитируемых данные:
obsGroupA <- round(runif(40, 240, 63535))
obsGroupB <- round(runif(40, 2478, 95063))
obsGroupC <- round(runif(40, 3102, 104799))
propGroupA <- obsGroupA/(obsGroupA + obsGroupB + obsGroupC)
propGroupB <- obsGroupB/(obsGroupA + obsGroupB + obsGroupC)
propGroupC <- obsGroupC/(obsGroupA + obsGroupB + obsGroupC)
#propGroupA + propGroupB + propGroupC
attributeA <- c("A", "B", "C", "D", "E")[runif(40, 1, 5)]
attributeB <- ifelse(attributeA %in% c("A", "B", "E"), "A", "B")
Модель попытка:
#y <- cbind(obsGroupA, obsGroupB, obsGroupC)
y <- cbind(propGroupA, propGroupB, propGroupC)
model <- glm(y ~ attributeA)
Я получаю следующее сообщение об ошибке:
Error in x[good, , drop = FALSE] : (subscript) logical subscript too long
Любые идеи, как я могу выполнить статистический тест в R?
Любые ссылки на правильный статистический тест также будут оценены.
Спасибо.
У вас, кажется, две проблемы: i) вы не знаете, что вы делаете со статистической точки зрения, и ii) вы не знаете, как получить R, чтобы делать то, что вы хотите. Вы получите помощь с i) на [stats.se], но не обязательно ii), и вам нужно будет больше сосредоточиться на вопросе о том, какой статистический подход я должен использовать для этого вопроса, чтобы это было по теме на [stats .se]. –
Я голосую, чтобы закрыть этот вопрос как не относящийся к теме, потому что речь идет не о программировании в первом случае. OP нуждается в статистической помощи, и это определит, что нужно делать в программном обеспечении. –