2015-11-11 4 views
4

У меня есть dataframe как этотправила ассоциации с пандами dataframe

df = pd.DataFrame(data=[980,169,104,74], columns=['Count'], index=['X,Y,Z', 'X,Z','X','Y,Z']) 

      Count 
X, Y, Z  980 
X,Z   169 
X   104 
Y,Z   74 

Я хочу, чтобы иметь возможность извлекать ассоциативные правила из этого. Я видел, что алгоритм Apriori является ссылкой. А также найдено Оранжевая библиотека для интеллектуального анализа данных хорошо известна в этой области.

Но проблема в том, что для использования AssociationRulesInducer Мне нужно создать сначала файл, содержащий все транзакции. Поскольку мой набор данных действительно огромный (20 столбцов и 5 миллионов строк), будет слишком дорого записывать все эти данные в файл и читать его снова с помощью Orange.

Есть ли у вас какие-либо идеи, как я могу использовать мою текущую структуру фреймов, чтобы найти правила ассоциации?

+0

Просто добавьте код данных, чтобы проверить, извините, если это было неясно. – dooms

ответ

2

Orange3-Associate Новая надстройка для Orange data mining suite, кажется, включает виджеты и code that mines frequent itemsets (и от них association rules) даже из разреженных массивов или списков списков, которые могут работать на вас.

С 5-миллиметровыми рядами было бы неплохо, если бы это было так. :)

Смежные вопросы