2016-04-06 2 views
-1

Я предоставляю ярлык класса ELKI elki-bundle-0.7.1Элементы кластеризации ELKI, что они означают?

Он предоставляет множество статистических данных, таких как ниже, но я не могу найти информацию о том, что они представляют?

Я знаю f1-меру, точность и отзыв, но как может быть множество мер? Разве они не должны рассчитываться по результатам кластеризации?

Спасибо

Сопряжение подсчета меры?

Jaccard 0.3851744186046512 
F1-Measure 0.5561385099685204 
Precision 0.6463414634146342 
Recall 0.4880294659300184 
Rand 0.8368055555555556 
ARI 0.458537539334965 

FowlkesMallows 0.5616348272664993 

Основанные на энтропии меры?

NMI Joint 0.5758289911830176 
NMI Sqrt 0.7309481146561948 

BCubed-based меры?

F1-Measure 0.7033781601851384 
Recall 0.6901589423648247 
Precision 0.7171136653895275 

Установленные на основе соответствия меры?

F1-Measure 0.7702702702702702 
Purity 0.7916666666666667 
Inverse Purity 0.7499999999999998 

Редактирование-расстояние меры?

F1-Measure 0.6312576312576313 
Precision 0.6527777777777778 
Recall 0.6111111111111112 

Gini меры?

Mean +-0.2958 0.703636303877176 
+0

есть отдельный стек, а именно - http://stackoverflow.com/questions/36439400/elki-clustering-measures-what-do-they-mean - я ничего не говорю, это просто, что вероятность получить ответ там выше. – shabunc

+0

MonsterMMORPG: Код ELKI поставляется с множеством литературных ссылок. ** См. JavaDoc **, у него есть документация этих мер. Precision, Recall, F1 можно вычислить по разным сводкам, таким образом, вы получите различную точность, напомните, f1, в зависимости от того, что вы их вычисляете. –

+0

@ Anony-Mousse ty очень подходит для ответа. Мне нужны только результаты кластеризации. Сочетание парных показателей - это тот, который я должен посмотреть? тот, который используется в литературе? – MonsterMMORPG

ответ

0

См. Документацию ELKI. Мы внедрили множество оценочных мер. Вот выдержка из списка http://elki.dbs.ifi.lmu.de/wiki/RelatedPublications

Силуэт:

PJ Rousseeuw
Силуэты: Графическая помощь в интерпретации и валидации кластерного анализа
В: Журнал вычислительной и прикладной математики, том 20

Rand индекс:

Rand, W. M.
Объективные критерии оценки методов кластеризации
В: Journal of the American Statistics Association, Vol. 66 Выпуск 336

Fowlkes-Маллоус:

Fowlkes, Е.Б. и Mallows, C.L.
Способ сравнения двух иерархических кластеризаций

BCubed:

А. Bagga и Б. Болдуина
Сущность на основе кросс-документ coreferencing с использованием векторного пространства Модель
В: Proc.COLING '98 Труды 17-й международной конференции по вычислительной лингвистике

Edit-Расстояние:

Pantel, П. и Лин Д.
Документ кластеризация с комитетами
В: Proc. Двадцать пятый ACM SIGIR конференция по исследованиям и разработкам в поиске информации

меры Энтропия на основе:

Meila, М.
Сравнение кластеризаций по изменению информации
В: Изучение теории и ядра машин

Nguyen, XV и Epps, J. and Bailey, J.
Информационно-теоретические меры для сравнения кластеров: это исправление для шанс нужен?
In: Proc. ICML '09 Труды 26-й ежегодной международной конференции по вопросам машинного обучения чистоты

Set-Matching:

Стейнбах, М. и Karypis, Г. и Кумар В.
Сравнение документа методы кластеризации
В: KDD семинаре по добыче текста, 2000

Е. Amigo, Дж Гонсало, J. Artiles и F. Вердехо
Сравнение внешних кластеризации evalu на основе формальных ограничений
In: Inf. Retrieval, vol. 12, вып. 5

Meila, M
Сравнение кластеризаций
В: Университет штата Вашингтон, Сиэтл, технический отчет 418, 2002

Чжао, Ю. и Karypis Г.
Критерий функции для документа кластеризация: Эксперименты и анализ
В: университет Миннесоты, факультет компьютерных наук, технический отчет 01-40, 2001

C-Index:

L. J. Hubert and J. R. Levin
Общая статистическая структура для оценки категориальной кластеризации в свободном отзыве.
В: Психологический бюллетень, Vol. 83 (6)

Согласные пары:

Ф. Б. Бейкер, Л. J.Hubert
Измерение мощности иерархического кластерного анализа
В: Журнал Американской ассоциации по статистике, 70 (349)

FJ Rohlf
Методы сравнения классификаций
В: Ежегодный обзор экологии и систематики

Дэвис-Bouldin:

DL Davies и DW Bouldin
Кластер Разделение Мера
В: IEEE Transactions Pattern Analysis и Machine Intelligence Pami-1 (2)

PBM:

МК Pakhira и S. Bandyopadhyay и U. Маулик
индекс действий для получения четких и нечетких кластеров
В: распознавании образов, 37 (3)

Критерии Разница-Ratio:

РБ Calinski и Дж Harabasz
метод дендритов для кластерного анализа
В: связи в статистике-теории и методы, 3 (1)

Мы также имеют DBCV, но код еще не пересматривается и не сливается.

Моя личная рекомендация - использование Скорректированный индекс Rand, из-за хорошей регулировки на случайность. ARI меньше 0 означает, что результат хуже случайного. При почти любой другой мере даже случайный результат будет оцениваться положительно.