4

Я заинтересован в создании кластеризации документов, и сейчас я рассматриваю возможность использования TF-IDF для этого.tf-idf: Я понимаю это правильно?

Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности документа с запросом. Если у меня нет конкретного запроса, как я могу применить tf-idf для кластеризации?

ответ

4

Не совсем на самом деле: тс-IDF дает значимость термина в данном документе.
Таким образом, вы можете прекрасно использовать его для кластеризации вычисления близости, которое было бы что-то вроде

proximity(document_i, document_j) = sum(tf_idf(t,i) * tf_idf(t,j)) 

для каждого члена т как в док г и док у.

4

Для кластеризации документов. наилучшим подходом является использование алгоритма k-mean . Если вы знаете, сколько типов документов у вас есть, вы знаете, что такое k.

Чтобы сделать его работу над документами:

а) говорят, выбрать начальные K документы в произвольном порядке.

b) Назначьте каждый документ кластере, используя минимальное расстояние для документа с кластером.

c) После того, как документы назначены кластеру, сделайте K новыми документами как кластер, взяв центроид каждого кластера.

Теперь возникает вопрос

а) Как рассчитать расстояние между 2 документами: Его ничего, кроме косинуса сходства с точки зрения документов с исходным кластером. Термины здесь не более чем TF-IDF (рассчитанные ранее для каждого документа)

b) Centroid должен быть: сумма TF-IDF данного термина/нет. документов. Сделайте это для всех возможных терминов в кластере. это даст вам еще n-мерные документы.

Надеюсь, что это помогает!

+0

Вы можете помочь по этому http://stackoverflow.com/questions/28642930/how-can-i-compute-mtf-idf – 2015-02-21 07:08:32

+0

, так что, скажем, у меня есть 3 документа типа {1.1, 0, 3.3, 4} {0, 2, 0, 3} {1, 1, 1, 1} и их центроид равен {2.1/3, 3/3, 4.3/3, 8/3} справа? – MonsterMMORPG

1

TF-IDF служит для другой цели; если вы не собираетесь изобретать колесо, вам лучше использовать такой инструмент, как Carrot. Googling для кластеризации документов может дать вам много алгоритмов, если вы хотите реализовать их самостоятельно.

+0

Как TF-IDF не связан с кластеризацией? как вы будете группировать текстовые документы? – MonsterMMORPG

Смежные вопросы