Я пытаюсь использовать алгоритм кластеризации KMeans NLTK. Обычно это нормально. Я хочу использовать пакет Metrics NLTK для определения точности, отзыва и измерения f.Как вычислить Точность в NLTK KMeans Clustering
Я искал несколько примеров в Интернете и других ссылках, но может быть без подсказки.
Если кто-либо может любезно привести пример или ссылку. Спасибо заранее.
Иногда люди также используют B-cubed (http://cs.utsa.edu/~qitian/seminar/Spring11/03_11_11/IR2009.pdf), например. http://www.aclweb.org/anthology/W/W14/W14-2211.pdf (отказ от ответственности: я являюсь соавтором этой статьи). – alvas
Интересно, конечно же, когда-нибудь захочется попробовать. –
Я считаю, что чистота обычно была общей метрикой eval: для каждого вычислимого кластера C пусть M (C) - истинный кластер, который наилучшим образом соответствует C. Для документа d пусть C (d) - вычислимый кластер, содержащий d, и пусть T (d) быть истинным кластером, содержащим d. Тогда Purity = доля d, для которой M (C (d)) = T (d). – alvas