Как я могу использовать таблицу()? В таблице записи у меня есть:Использование таблицы() для подсчета частоты факторов r
USER DATE ITEM
A 1 alpha
A 1 beta
A 1 gamma
A 2 alpha
A 2 gamma
A 4 beta
A 4 gamma
B 1 alpha
B 1 beta
...
Если USER получил еще один элемент с ITEM «альфа» в тот же день, что был другой ITEM и какие из этих элементов присутствовали больше всего?
Информационный кадр, который мне нужно использовать для этого, действительно огромный, имея более 2 миллионов записей (ну, по крайней мере, для меня это огромный ^^). Я использовал таблицу() несколько раз, но до сих пор не мог понять, как использовать ее для моих нужд.
UPDATE: Вывод должен быть таким:
amount_of_users combination
2 (alpha,beta)
1 (alpha,gamma)
1 (beta,gamma)
1 (alpha, beta, gamma)
Я обновил главную таблицу, чтобы показать, что главная проблема состоит в следующем: Если пользователь имеет пункт альфа, любой 2-, 3 - подсчитан 4-элементный комбинат, он должен появиться, поскольку он явно получил предмет с другими предметами - но все же в тот же день.
ОБНОВЛЕНИЕ: Как правильно указано DWin, было неясно, чего я пытаюсь достичь. Пусть у одного пользователя есть предметы: альфа, бета, гамма. Затем этот пользователь должен быть добавлен к каждому счету любого его подмножества, то есть комбинации (альфа, бета) (бета, гамма) (альфа, гамма) и, наконец, (альфа, бета, гамма), все получат счет + 1.
В то же время я думал, что для моей главной цели (я хочу видеть, какие самые видные ITEMS, добавляемые к определенному ITEM, например, альфа), я мог бы просто подсчитать количество пользователей, используя таблицу и colSums , пожалуйста, найдите мое очень плохое решение, но указав элементы, добавив больше всего.
levels(x$TARGETGROUP)[c(8,15:17,39,41,57,58,61)] <- c("HOME")
levels(x$TARGETGROUP)
dings <- table(x[,1],x[,3])
str(dings)
#i saw, that the 8th column contains item I needed.
haeuf <- colSums(dings[dings[,8]!=0, ])
Опять же, это решение явно очень грязно, но я все еще в очень ранней стадии обучения R и не нужно (пока) номер, который действительно говорит мне количество пользователей, но вместо этого просто говорит мне какую-то тенденцию.
Пожалуйста, разместите пример вывода, который вы ожидаете на основе этого ввода. – A5C1D2H2I1M1N2O1R2T1
Позвольте мне перефразировать: для 7 строк данных, которые вы предоставили, каков будет ожидаемый результат? – A5C1D2H2I1M1N2O1R2T1
Извините, вы были правы, все еще были зафиксированы в датах. – Mustafa