У меня есть набор данных счетов-фактур ресторана, содержащих продукты, заказанные bye каждый клиент.Sklearn кластеризации аналогичных заказов
Я уже обработал данные, и у меня есть следующие матрицы в CSV файл:
InvoiceID, Product 1, product 2, product 3, product 4, product 5.....
123, 0, 1, 0, 1, 0, .....
124, 0, 1, 1, 1, 0, .....
...
Для каждого счета у меня есть запись в формате CSV, который содержит 0 и 1, если продукт представлена колонке был заказан клиентом (0 не был заказан, 1 заказан).
Как обработать эти данные с помощью sklearn, чтобы я мог скопировать счета и получить центроиды, чтобы я мог видеть, какие продукты находятся в каждом кластерном центре?
Спасибо!
EDIT: У меня есть 957 продуктов, и многие из них никогда и не были упорядочены таким образом, я могу уменьшить матрицу (не знаю, лучший способ сделать это)
Я согласен, частая добыча полезных ископаемых, вероятно, больше подходит. Вы знаете хорошую библиотеку для этого? –
Никогда не использовал его с Python, но PyFIM кажется хорошим. –