У меня есть два столбца с отсутствующими данными.Найти подмножество наблюдений, исключающих отсутствующие значения для двух столбцов
Var1 Var2
1445 40
656 NA
NA NA
607 NA
2098 15
Я хочу вычислить корреляции между этими столбцами, исключая наблюдения с отсутствующими данными. Я попытался
cor(na.omit(df$Var1),na.omit(df$Var2),method="pearson")
Но я получаю
Ошибки в кор (na.omit (ДФ $ var1), na.omit (ДФ $ var2): несовместимых размерами
Я предполагаю, что это связано с тем, что вместо того, чтобы пересекать две переменные, я получаю
Var1(NA omit) Var2(NA omit)
1445 40
656 15
607
2098
, и поэтому корреляция не может быть выполнена, поскольку она изменяет длину столбцов.
Как я могу опустить все наблюдения, содержащие NA
, чтобы столбцы имели одинаковую длину?
'кор (na.omit (DF $ var1), na.omit (DF $ var2), метод = "пирсон", использовать =«попарно .complete.obs ")' – kaksat
Но вы можете прочитать следующее: [Паралельно-полная корреляция считается опасной] (http://bwlewis.github.io/covar/missing.html). –
Спасибо, не знал об этом. – kaksat