0

Я пытаюсь объединить части набора данных, с которыми я работаю. У меня есть группа людей, которые работают с различными навыками. Идея состоит в том, чтобы получить наибольшее количество представленных агентов и навыков.Кластеризация нечисловых групп

Итак, в идеальном случае было бы неплохо получить образец агентов, которые содержат 85-90% записей, а также группу навыков, которые также составляют 85-90% записей. В принципе, я хочу получить самую большую процентную выборку, не имея небольших групп агентов, которые работают только с несколькими навыками или обладают навыками, с которыми работает только очень маленький процент агентов.

Я пытаюсь найти более статистический подход к этому и подумал о кластеризации. Но, по моему мнению, кластеризация требует определения расстояния. Я не уверен, что эти данные соответствовали бы этому требованию.

Ниже приведен небольшой пример того, что данные выглядит следующим образом:

 Agent   Skill 
     1   Claims 
     1   Benefits 
     2   Claims 
     2    - 
     3   Other 

ответ

2

Вы смотрите на неправильные инструменты для этой проблемы.

Что вы пытаетесь сделать, это вариант обложки проблема, а не кластеризация.

За исключением того, что вы не ищете минмальную крышку, а приблизительную верхнюю крышку.

Вам нужно будет решить, когда решение лучше другого. Ваше описание этого слишком расплывчато - оно позволяет тривиальное решение сохранить все: покрытие 100%.

Затем неоднократно пытаются либо:

  • удалить агент
  • удалить умение

в зависимости от того, что дает лучшее улучшение.

Но опять же, у вас должен быть формальный критерий качества.

+0

Благодарим за предложение. Я пошел и сделал некоторые исследования по этому вопросу, и я думаю, что вы правы. Есть ли простой способ построить это в python? Я просто не знаю, с чего начать – user3120266

+0

Сначала решите проблему * что делать. Фактический код должен быть простым. –

Смежные вопросы