У меня есть набор данных, который содержит несколько сотен переменных с сотнями наблюдений. Каждое наблюдение имеет уникальный идентификатор и связано с одной из примерно 50 групп. Похоже, что так (переменные я не обеспокоен, были проигнорированы ниже):R: plyr/ddply и скорректированные средства
ID Group Score
1 10 400
2 11 473
3 12 293
4 13 382
5 14 283
6 11 348
7 11 645
8 13 423
9 10 434
10 10 124
т.д.
Я хотел бы, чтобы вычислить скорректированное среднее для каждого наблюдения, которые необходимо использовать N- подсчет для каждой группы, сумма баллов для этой группы, а также средства для баллов каждой группы. (Таким образом, в приведенном выше примере N-счет для группы 11 равен трем, сумма равна 1466, а средняя - 488,67, и я буду использовать эти цифры только по идентификаторам 2, 6 и 7).
Я возился с plyr, и я в состоянии извлечь п-счетчики и средства следующим образом (с учетом недостающих баллов и ценностей группы):
new_data <- ddply(main_data, "Group", N = sum(!is.na(Scores)), mean = mean(Scores, na.rm = TRUE).
я застрял, хотя, как получить сумму баллов для определенной группы, а затем как вычислить скорректированные средства либо в наборе main_data, либо в новом наборе данных. Любая помощь будет оценена по достоинству.
Использование пакета dplyr, вы, вероятно, потребуется что-то вроде 'group_by (mydf, Group)%>% реферирования (число = п(), всего = сумма (Score), среднее = сумма (Score)/п()) ' – jazzurro