2016-03-29 2 views
1

Я пытаюсь использовать алгоритм кластеризации KMeans NLTK. Обычно это нормально. Я хочу использовать пакет Metrics NLTK для определения точности, отзыва и измерения f.Как вычислить Точность в NLTK KMeans Clustering

Я искал несколько примеров в Интернете и других ссылках, но может быть без подсказки.

Если кто-либо может любезно привести пример или ссылку. Спасибо заранее.

ответ

1

Трудно оценить производительность неконтролируемого обучения, то есть кластеризации. Это полностью зависит от того, почему вы пытаетесь сгруппировать в первую очередь.

Тем не менее, я думаю, что есть несколько метрик производительности доступны, как,

http://scikit-learn.org/stable/modules/clustering.html#clustering-performance-evaluation

+0

Иногда люди также используют B-cubed (http://cs.utsa.edu/~qitian/seminar/Spring11/03_11_11/IR2009.pdf), например. http://www.aclweb.org/anthology/W/W14/W14-2211.pdf (отказ от ответственности: я являюсь соавтором этой статьи). – alvas

+0

Интересно, конечно же, когда-нибудь захочется попробовать. –

+0

Я считаю, что чистота обычно была общей метрикой eval: для каждого вычислимого кластера C пусть M (C) - истинный кластер, который наилучшим образом соответствует C. Для документа d пусть C (d) - вычислимый кластер, содержащий d, и пусть T (d) быть истинным кластером, содержащим d. Тогда Purity = доля d, для которой M (C (d)) = T (d). – alvas

0

Precision, Напомним, и, таким образом, F-мера не подходят для кластерного анализа. Кластеризация не является классификацией, а кластеры не являются классами!

Общие меры для кластеризации (если вы пытаетесь сравнить с существующими этикетками, которые не делают много смысла - если вы уже знаете, классы, а затем использовать классификацию и не кластеризация) являются Скорректированный индекс Rand и его варианты.

+0

Спасибо за ваш добрый ответ. Но исследователи берут кластеры как классы, а PoS Tagging или NE - это возможность кластеризации. Если мы не можем принять F Measure, то какова может быть общая метрика для оценки как классификатора, так и кластеров по одной и той же проблеме? Но это не (http://www.stat.cmu.edu/~cshalizi/490/10/clustering/clustering02.r) с использованием матрицы путаницы в K средствах. Пожалуйста, исправьте, если я неправильно интерпретирую его. – Coeus2016

+0

Проблема в том, что нет 1: 1 соответствия кластеров и классов. Это не похоже на то, что алгоритм кластеризации будет производить, например, «android» и «apple». Существует причина, по которой автор этого r-скрипта помещает кавычки вокруг термина «матрица замешательства» - в то время как он вычисляется так же, как и в классификации, он имеет другую семантику и не должен оцениваться одинаково. –

+0

Я могу рекомендовать ** не сравнивать результаты кластеризации и классификации **. Это яблоки и апельсины. –

Смежные вопросы