У меня есть большой набор данных, где каждая станция имеет одинаковую широту и долготу. В наборе данных некоторые строки пропускают lat и lon и вместо этого говорят «unknown». Мне нужно заполнить неизвестные длинной латкой с других станций, где эти данные отсутствуют.R кадр данных заполняется отсутствующими значениями на основе других
В этом примере я хотел бы строки 5 иметь 3 и 8 вставлены для широты и долгота:
> station <- c("a","b","c","c","c")
> lat <- c("1","2","3","3","unknown")
> lon <- c("6","7","8","8","unknown")
> data.frame(station,lat,lon)
station lat lon
1 a 1 6
2 b 2 7
3 c 3 8
4 c 3 8
5 c unknown unknown
Есть в моем наборе данных миллиона строк, если это занимает несколько минут, чтобы закончить это отлично, поскольку это выполняется только один раз до начала анализа. Я бы предпочел не устанавливать другой пакет, если это действительно необходимо.
Является ли это на самом деле представитель ваших данных? Другими словами, действительно ли в вашем наборе данных слово «неизвестно», или оно закодировано как «NA» (как и должно быть)? Являются ли значения в вашем 'data.frame' для« lat »и« lon »фактически числовыми значениями, или' factor's, как они есть в этом вопросе? – A5C1D2H2I1M1N2O1R2T1
в исходном наборе данных говорится «неизвестно», это факторы. Я могу заставить его сказать NA, используя as.numeric при необходимости. – John
Ваши данные заказываются по станции? Вы уверены, что все ваши станции имеют хотя бы один символ с допустимым значением? – agstudy