Я пытаюсь объединить части набора данных, с которыми я работаю. У меня есть группа людей, которые работают с различными навыками. Идея состоит в том, чтобы получить наибольшее количество представленных агентов и навыков.Кластеризация нечисловых групп
Итак, в идеальном случае было бы неплохо получить образец агентов, которые содержат 85-90% записей, а также группу навыков, которые также составляют 85-90% записей. В принципе, я хочу получить самую большую процентную выборку, не имея небольших групп агентов, которые работают только с несколькими навыками или обладают навыками, с которыми работает только очень маленький процент агентов.
Я пытаюсь найти более статистический подход к этому и подумал о кластеризации. Но, по моему мнению, кластеризация требует определения расстояния. Я не уверен, что эти данные соответствовали бы этому требованию.
Ниже приведен небольшой пример того, что данные выглядит следующим образом:
Agent Skill
1 Claims
1 Benefits
2 Claims
2 -
3 Other
Благодарим за предложение. Я пошел и сделал некоторые исследования по этому вопросу, и я думаю, что вы правы. Есть ли простой способ построить это в python? Я просто не знаю, с чего начать – user3120266
Сначала решите проблему * что делать. Фактический код должен быть простым. –