У меня есть кадр данных с колонками ID, Product
. Например,Найти наиболее часто встречающиеся в Dataframe списков
ID Product
1 ['a','b']
2 ['a','b','e']
3 ['c','d']
4 ['a','b','c','d']
Продукт представляет собой поле списков, в котором каждый список содержит продукты, которыми располагает человек. Например, лицо с идентификатором 1 имеет продукты a и b. Мне нужно найти самые популярные/общие пары продуктов. В этом примере продукты [a, b] являются самыми популярными. Это должны быть наиболее распространенные пары продуктов, так как ни один человек не может иметь 1 продукт.
Мне нужно, чтобы она выглядела более 2 Продукты групп. Если набор данных изменится на это. 'ID продукта 1 [ 'а', 'б', 'е'] 2 [ 'а', 'б', 'е'] 3 [ 'с', 'd'] 4 [» a ',' b ',' c ',' d '] ' Он должен найти' [' a ',' b ',' e '] 'как самый популярный –
Ну, о чем нигде не упоминалось в вашем сообщении , Вы все время подчеркивали слово «пары», поэтому я предположил, что вы группируетесь в соответствии с их попарными комбинациями и принимаете пару с максимальным счетом. Каким будет новый критерий? –
Прошу прощения, это не должно быть попарно. В принципе, это должна быть только группа продуктов, выбранных большинством людей. Другими словами, это может быть 3,4,5 и т. Д. –