Я хотел бы ввести недостающие значения в набор данных, основанный на распределении других значений переменной.Вменение отсутствующих значений
Представьте себе, что 30% значений = 1, 20% = 2 и 50% = 3, в сущности, я хотел бы сделать следующее:
impute(var,1) # for 30 % of the NA occurrences #
impute(var,2) # for 20 % of the NA occurrences #
impute(var,3) # for 50 % of the NA occurrences #
Может кто-нибудь помочь?
Джон
Это возвращает значения 2,1,2,2,1,2,2,1,2,2 и следующее предупреждение: В var [is.na (var)] <- sample (1: 3, replace = TRUE, prob = c (0.3: Количество элементов для замены не кратно замещающей длины – user2568648
@ user2568648 См. Edit. – James
Спасибо, Джеймс, похоже, что это работает некорректно. Запуск кода 5 раз I получаем 20 x 1, 9 x 2 и 21 x 3, что соответствует вероятностям p (1) = 0,4, p (2) = 0,18 и p (3) = 0,42. Возможно, при достаточно большом количестве повторений вероятности будут сходиться к желаемому уровни. – user2568648