вычислить среднее по критериям в R

Я хотел бы рассчитать среднее значение выборки в R, введя конкретные критерии. Например, у меня есть эта таблица, и я хочу средства только те, для которых стадия = 1 или 2:вычислить среднее по критериям в R

treatment session period stage wage_accepted type 
1   1  1  1   25 low 
1   1  1  3   19 low 
1   1  1  3   15 low 
1   1  1  2   32 high 
1   1  1  2   13 low 
1   1  1  2   14 low 
1   1  2  1   17 low 
1   1  2  4   16 low 
1   1  2  5   21 low

Желаемых в этом случае должна быть:

stage mean 
     1 21.0 
     2 19.6667

Спасибо заранее.

источник

2015-04-19 rado

С dplyr библиотеки

library(dplyr) 

df %>% filter(stage==1 | stage ==2) %>% group_by(stage) %>% 
    summarise(mean=mean(wage_accepted))

Если вы новичок в dplyr немного объяснения:

Возьмите фрейм данных df, затем filter, где stage равен 1 или 2. Затем для каждого group в stage вычислить mean из wage_accepted

источник

2015-04-19 00:17:23

Спасибо, это полезно. Однако мои данные действительно большие, и приведенный выше пример. Я хотел бы выбрать 25 ответов переменной, которая имеет 50. В этом случае (этап фильтра == 1 | .... | stage == 25) будет немного длиннее. Как я могу сделать это более эффективно? – rado

Используйте 'filter (stage% in% 1:25)' –

он качественный не в количественном выражении. Ответы, например, «A», «B», «C» и т. Д. ... – rado

Вы можете сделать это, а потом фильтр для этапов согласно вашему требованию

# Calculating mean with respect to stages 
df = do.call(rbind, lapply(split(data, f = data$stage),function(x) out = data.frame(stage = unique(x$stage), mean = mean(x$wage_accepted)))) 

# mean for stage 1 and 2 
required = subset(df, stage %in% c(1,2))

источник

2015-04-19 00:14:38

Если у вас есть файл CSV для данных, вы можете прочитать данные в кадре данных с помощью:

data<-read.csv("PATH_TO_YOUR_CSV_FILE/Name_of_the_CSV_File.csv")

Затем вы можете использовать либо этот код, опираясь на sapply() :

sapply(split(data$Wage_Accepted,data$Stage),mean) 

    1  2  3  4  5 
21.00000 19.66667 17.00000 16.00000 21.00000

Или этот код опираясь на tapply():

tapply(data$Wage_Accepted,data$Stage,mean) 

    1  2  3  4  5 
21.00000 19.66667 17.00000 16.00000 21.00000

источник

2015-04-19 00:47:54

Спасибо @ bgfriend0 за ваши предложения. –

Проверьте это. Это игрушечный пример, но data.table настолько компактен. Очевидно, что dplyr отлично.


    library(data.table) 

    dat <- data.table(iris) 
    dat[Species == "setosa" | Species == "virginica", mean(Sepal.Width), by = Species]

С точки зрения вашей потребности в скорости ... data.table - это ракетный корабль, который ищет его. Я оставлю это вам, чтобы применить это к вашему вопросу. Best, M2K

источник

2015-04-19 00:56:34 miles2know

вычислить среднее по критериям в R

ответ

Смежные вопросы