Для кластеризации документов. наилучшим подходом является использование алгоритма k-mean . Если вы знаете, сколько типов документов у вас есть, вы знаете, что такое k.
Чтобы сделать его работу над документами:
а) говорят, выбрать начальные K документы в произвольном порядке.
b) Назначьте каждый документ кластере, используя минимальное расстояние для документа с кластером.
c) После того, как документы назначены кластеру, сделайте K новыми документами как кластер, взяв центроид каждого кластера.
Теперь возникает вопрос
а) Как рассчитать расстояние между 2 документами: Его ничего, кроме косинуса сходства с точки зрения документов с исходным кластером. Термины здесь не более чем TF-IDF (рассчитанные ранее для каждого документа)
b) Centroid должен быть: сумма TF-IDF данного термина/нет. документов. Сделайте это для всех возможных терминов в кластере. это даст вам еще n-мерные документы.
Надеюсь, что это помогает!
Вы можете помочь по этому http://stackoverflow.com/questions/28642930/how-can-i-compute-mtf-idf – 2015-02-21 07:08:32
, так что, скажем, у меня есть 3 документа типа {1.1, 0, 3.3, 4} {0, 2, 0, 3} {1, 1, 1, 1} и их центроид равен {2.1/3, 3/3, 4.3/3, 8/3} справа? – MonsterMMORPG