Я работаю над вычислением статистики предметов для серии экзаменов по множественному выбору. У меня есть решение с использованием mapply, которое технически работает, но для вычисления одной из более сложных статистик требуется несколько часов. Первый набор данных, который у меня есть, - это тот, который содержит отдельную строку для каждого вопроса, который каждый студент ответил за каждую оценку.R mapply функция работает медленно
df <- data.frame(c(rep("s1", 5), rep("s2", 5), rep("s3", 5),rep("s4", 5)),"a1", c("i1", "i2", "i3", "i4", "i5"), c(1, 0), 1)
colnames(df) <- c("student", "assessment", "item", "score", "points.possible")
Первый шаг, который я делаю (и только один раз), - создать таблицу всех уникальных предметов. В этом случае это было бы просто, так как есть только одна оценка и 5 предметов.
unique <- subset(df[,c("assessment", "item")], !duplicated(df[,c("assessment", "item")]))
Затем мне нужно рассчитать статистику для каждого из этих предметов. Однако сложная часть состоит в том, что вычисления требуют расчета общих баллов, которые студенты получили на всей оценке. Вот что я написал для этого.
fun1 <- function(a.id, i.id) {
# subset original dataframe for just one assessment
subsetdf <- df[df$assessment == a.id,]
# generate list of students that got the item right and wrong
correct <- subsetdf$student[subsetdf$item==i.id & subsetdf$score==1]
wrong <- subsetdf$student[subsetdf$item==i.id & subsetdf$score==0]
# scores by student
scores <- aggregate(score ~ student, data=subsetdf,sum)/aggregate(points.possible ~ student, data=subsetdf, sum)
# average scores for students that got item right/wrong
x.1 <- sum(subsetdf$score[subsetdf$student %in% correct])/sum(subsetdf$points.possible[subsetdf$student %in% correct])
x.0 <- sum(subsetdf$score[subsetdf$student %in% wrong])/sum(subsetdf$points.possible[subsetdf$student %in% wrong])
# percent of students that got item right
p <- length(correct)/(length(correct)+length(wrong))
# final stat calculation
r <- ((x.1-x.0)*sqrt(p*(1-p)))/sd(scores[,2])
print(r)
}
Затем я использовал mapply в цикле эту функцию в течение всего исходного массива данных при использовании меньшего набора данных для входов.
unique$r <- mapply(fun1, unique$assessment, unique$item)
Я был счастлив, что я был в состоянии заставить его работать, но когда я делаю это с большими наборами данных (~ 7 миллионов строк для «ДФА», ~ 2000 строк для «уникального), это занимает довольно (несколько часов) .Какие советы по другим способам решения этой проблемы более эффективны? Я узнал, что одна проблема заключается в том, что моя функция создает копию оригинального большого набора данных каждый раз, когда он проходит, но я не знаю, знают, как сделать эту проблему без этого.
Я до сих пор считаю себя новичком для этого вида использования для R, поэтому любые советы были бы оценены!
Мысли: (1) не подмножают весь 'df', используйте' suba <- df $ evaluation == a.id', 'subi <- df $ item == i.id' и, возможно (если по-настоящему двоичный) 'subs <- df $ score == 0' и повторно использовать вы-что-нибудь из этих логических векторов на' df'; (2) то же самое для хранения списка '...$ student% in% correct', нет необходимости пересчитывать его; (3) если данные действительно велики, возможно, 'data.table',' dplyr' или один из пакетов SQL обеспечит лучшую производительность. – r2evans
действительно ли это работает правильно для вас? Я получаю предупреждения в 'mapply'. 'aggregate', скорее всего, является вашим основным узким местом, за которым следуют все подмножества. Я бы переключился на dplyr – rawr
@rawr вы только что сказали ... (и я цитирую) «Я бы переключился на ** dplyr **»? –