2012-05-15 2 views
2

Я надеюсь, что я буду самым ясным. Скажем, у меня есть набор данных с 10 переменными, где 4 из них представляют для меня определенное явление, которое я называю Y. Другой 6 представляют для меня еще одно явление, которое я называю X.Регрессионный анализ или Anova?

Каждый из этих переменных (10) содержит 37 единиц. Эти единицы являются всего лишь респондентами моего анализа (опрос). Поскольку все вопросы основаны на шкале Ликерта, они являются качественными переменными. Масштаб от 0 до 7 для всех из них, но есть значения «-1» и «-2», где отсутствует ответ. Следовательно, масштаб идет фактически от -2 до 7.

Что я хочу сделать, так это рассчитать регрессию между моим Y (который содержит 4 переменные в этом случае и 37 ответов для каждой переменной) и мой X (который содержит 6 переменные и одинаковое количество респондентов). Я знаю, что для качественных анализов я должен использовать Anova вместо регрессии, хотя я где-то читал, что сделать регрессию можно даже .

До сих пор я пытался действовать таким образом:

> apply(Y, 1, function(Y) mean(Y[Y>0])) #calculate the average per rows (respondents) without considering the negative values 

> Y.reg<- c(apply(Y, 1, function(Y) mean(Y[Y>0]))) #create the vector Y, thus it results like 1 variable with 37 numbers 

> apply(X, 1, function(X) mean(X[X>0])) 

> X.reg<- c(apply(X, 1, function(X) mean(X[X>0]))) #create the vector X, thus it results like 1 variable with 37 numbers 

> reg1<- lm(Y.reg~ X.reg) #make the first regression 
> summary(reg1) #see the results 
Call: 
lm(formula = Y.reg ~ X.reg) 

Residuals: 
    Min   1Q  Median  3Q  Max 
-2.26183 -0.49434 -0.02658 0.37260 2.08899 

Coefficients: 
       Estimate Std. Error t value Pr(>|t|)  
(Intercept)  4.2577  0.4986  8.539 4.46e-10 *** 
X.reg   0.1008  0.1282  0.786 0.437  
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.7827 on 35 degrees of freedom 
Multiple R-squared: 0.01736, Adjusted R-squared: -0.01072 
F-statistic: 0.6182 on 1 and 35 DF, p-value: 0.437 

Но как вы можете видеть, хотя я не использую Y, как состоит из 4-х переменных и X на 6, и я не считаю отрицательным значения тоже, я получаю очень низкий балл как свой R^2.

Если я поступаю с ANOVA вместо меня эта проблема:

> Ymatrix<- as.matrix(Y) 
> Xmatrix<- as.matrix(X) #where both this Y and X are in their first form, thus composed by more variables (4 and 6) and with negative values as well. 

> Errore in UseMethod("anova") : 
    no applicable method for 'anova' applied to an object of class "c('matrix', 'integer', 'numeric')" 

Чтобы быть честным, несколько дней назад мне удалось с помощью ANOVA, но, к сожалению, я не помню, как и я не сохранить команды в любом месте.

То, что я хотел бы знать:

  • Прежде всего, я неправ в том, как я подхожу к моей проблеме?
  • Что вы думаете о выходе регрессии?
  • Наконец, как я могу сделать анову? Если я должен это сделать.

ответ

0

Если ваш ответ (Y) и предиктор (x) являются числовой шкалой, вы можете использовать регрессию. Если ваш ответ (Y) является числовой шкалой с предиктором (x), это категориальная шкала, вы можете использовать ANOVA.

Вы должны использовать проверку достоверности и надежности, чтобы узнать, являются ли ответы (индикаторы) действительными и надежными для ответа и предиктора, прежде чем использовать метод регрессии.

0

Я не согласен с ответом Денни. Вы можете использовать любой подход независимо от типа данных, которые у вас есть. Если у вас есть категориальные данные, вы можете выразить их как числовые, используя фиктивную кодировку. Например, с учетом функции x с 3 вариантами, например 1, 2 и 3, вы можете кодировать это числовое число, создав 3 новые дополнительные переменные x1, x2 и x3. Если x равно 1 x1, будет 1, x2 будет 0, а x3 будет равно нулю. Если x отсутствует, три новых значения x будут равны нулю.

В вашем случае я бы рекомендовал сначала попробовать регрессию из-за количества функций, которые у вас есть, и потому что он имеет тенденцию быть прямым. ANOVA может усложняться по мере увеличения числа функций. Оба должны работать, если ваши данные соответствуют предположениям, требуемым обоими методами.

Смежные вопросы