Я хотел бы знать, как я могу генерировать данные, отличные от OUTLIER, используя R. Я генерирую данные с использованием RNORM.Как генерировать данные без вывода данных в R?
Скажем, у меня есть линейное уравнение
Y = B0 + B1*X + E, where X~N(5,9) and E~N(0,1).
Я собираюсь использовать RNorm в создании X и E. Ниже приведены коды, используемые:
X <- rnorm(50,5,3) #I'm generating 50 Xi's w/ mean=5 & var=9
E <- rnorm(50,0,1) #I'm generating 50 residuals w/ mean=0 & var=1
Теперь, я собираюсь для генерации Y путем подключения генерируемых данных на X & E выше в линейном уравнении.
Если данные, которые я сгенерировал выше, являются более свободными (без влиятельных наблюдений), то расстояние наблюдений Кука не должно превышать 4/n, что является обычным отключением для обнаружения влиятельных/отдаленных наблюдений.
Но я не смог довести это до сих пор. Я все еще получаю выбросы, когда создаю данные, следуя этой процедуре.
Можете ли вы мне помочь? Вы знаете способ, каким образом я могу генерировать данные, которые БЕСПЛАТНО.
Большое спасибо!
Я не могу удалить данные о выбросах. Это было бы подделкой смоделированных данных, и, как вы сказали, может повредить «случайный» процесс генерации данных. Я уже пытался уменьшить дисперсию X, все тот же результат. –