2015-03-25 2 views
0

У меня есть набор данных счетов-фактур ресторана, содержащих продукты, заказанные bye каждый клиент.Sklearn кластеризации аналогичных заказов

Я уже обработал данные, и у меня есть следующие матрицы в CSV файл:

InvoiceID, Product 1, product 2, product 3, product 4, product 5..... 
123,  0,   1,   0,   1,   0,  ..... 
124,  0,   1,   1,   1,   0,  ..... 
... 

Для каждого счета у меня есть запись в формате CSV, который содержит 0 и 1, если продукт представлена ​​колонке был заказан клиентом (0 не был заказан, 1 заказан).

Как обработать эти данные с помощью sklearn, чтобы я мог скопировать счета и получить центроиды, чтобы я мог видеть, какие продукты находятся в каждом кластерном центре?

Спасибо!

EDIT: У меня есть 957 продуктов, и многие из них никогда и не были упорядочены таким образом, я могу уменьшить матрицу (не знаю, лучший способ сделать это)

ответ

0

Вы можете использовать любой из алгоритмов кластеризации в scikit -учить. Не направляйте его в колонку ID. Вы можете замаскировать всегда нулевые столбцы с помощью numpy или pandas. Хорошее введение методов кластеризации в scikit-Learn можно найти в user guide

1

Вы уверены, что кластеризация является то, что вам нужно?

Это звучит так, как будто Анализ корзины рынка (и частая добыча полезных ископаемых) - это путь.

Большинство алгоритмов кластеризации присвоит каждый клиент к точно один тип, в то время как FIM будет также обнаружить подмножества и перекрывающихся узоров.

+0

Я согласен, частая добыча полезных ископаемых, вероятно, больше подходит. Вы знаете хорошую библиотеку для этого? –

+0

Никогда не использовал его с Python, но PyFIM кажется хорошим. –

Смежные вопросы