Итак, у меня есть большой набор данных с большим количеством столбцов (10) и 100 000 строк. Одна из столбцов - дата наблюдения с двумя другими соответствующими столбцами, одним видом и другим годом. Во-первых, я хочу создать новый столбец, который даст мне среднюю дату наблюдения для каждого вида за каждый год для первых 10% наблюдений (для каждого вида за каждый год). Во-вторых, я хочу уменьшить этот набор данных, чтобы остались только строки, участвующие в вычислении (т. Е. Первые 10%). Наконец, важно, чтобы мой новый набор данных имел другие соответствующие столбцы с информацией для каждого наблюдения, т. Е. Ect места. Образец набора данных (там существуют дополнительные столбцы):R: Уменьшение набора данных и создание условного среднего
date=c(3,84,98,100,34,76,86...)
species=c(blue,purple,grey,purple,green,pink,pink,white...)
id=c(1,2,3,2,4,5,5,6...)
year=c(1901,2000,1901,1996,1901,2000,1986...)
habitat=c(forest,plain,mountain...)
Ex: первая строка говорит вид синий был замечен на 3 января 1901 года в лесу.
data.table и dplyr являются хорошими пакетами для такого рода манипуляций. Также см. Http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example –
Я действительно ужасен с R, любая идея, как я буду использовать dplyr специально? – John