Я пытался сгруппировать набор текстовых документов. У меня есть разреженная матрица TFIDF с около 10 тыс. Документов (подмножество большого набора данных), и я пытаюсь запустить алгоритм k-mean scikit-learn с разным размером кластеров (10,50,100). Остальные параметры являются значениями по умолчанию.Текстовые документы Кластеризация - неравномерные кластеры
Я получаю очень странное поведение, независимо от того, сколько ячеек кластеров я указываю, или даже если я изменил количество итераций, в лоте будет 1 кластер, который будет содержать большинство документов сам по себе, и будет много кластеров, которые имели бы только один документ в них. Это очень неравномерное поведение
Кто-нибудь знает, с какой проблемой сталкиваюсь я?
k-средство не очень устойчиво к выбросам. 1 кластеры элементов обычно являются выбросами. –
Да, это именно то, о чем я думал, поскольку я подозреваю, что у меня много выходов. Мне интересно, какой алгоритм может быть подходящим в этом случае. –