2009-03-18 2 views
7

Я действительно запутался, как вычислить точность и вызвать в приложениях кластеризации.Как вычислить точность и отзыв в кластеризации?

У меня есть следующие ситуации:

Даны два множества A и B. При использовании уникального ключа для каждого элемента можно определить, какой из элементов A и B матча. Я хочу сгруппировать эти элементы на основе функций (конечно, не используя уникальный ключ).

Я делаю кластеризацию, но я не уверен, как вычислить точность и вспомнить. Формулы, согласно статье «Расширенные Графики производительности для кластера Retrieval» (http://staff.science.uva.nl/~nicu/publications/CVPR01_nies.pdf) являются:

р = точность = соответствующие извлекаемые элементы/извлекаемые изделия и г = напомним = соответствующие полученные элементы/соответствующие пункты

Я действительно не понимаю, какие элементы попадают под какую категорию.

Что я сделал до сих пор, я проверил внутри кластеров, сколько совпадающих пар у меня (с использованием уникального ключа). Это уже одна из точности или отзыва? И если да, то какой из них и как я могу вычислить другой?

Обновление: Я только что нашел еще один документ с названием «F-Measure для оценки неконтролируемого кластеризации с неопределенным количеством кластеров» на http://mtg.upf.edu/files/publications/unsuperf.pdf.

ответ

9

Я думаю, вы найдете wikipedia полезный article on precision and recall. Короче говоря:

точности = истинные позитивы/(истинные позитивы + ложных срабатываний)

Напомнит = истинные положительные/(истинное positivies + ложные негативы)

1

Я думаю, что есть проблемы с вашими определениями.

Точность и отзыв подходят для проблемы классификации, которые в основном являются проблемами с двумя кластерами. Если бы вы объединились во что-то вроде «хороших элементов» (= извлеченные элементы) и «плохие элементы» (= не получаемые элементы), тогда ваше определение имеет смысл.

В вашем случае вы подсчитали процент правильной кластеризации из всех элементов, что похоже на точность, но на самом деле не потому, что, как я сказал, определения не применяются.

+0

вы можете проверить этот вопрос тоже? http://stackoverflow.com/questions/32404742/how-to-calculate-clustering-success-pre-assigment-true-classes-are-known – MonsterMMORPG

2

Что делать с этой проблемой является:

Один из множеств A и B является «положительным». Давайте предположим, что А является положительным

Учитывая то, что для элемента А в кластере

  1. соответствующий элемент из В, находится в том же самом кластере. это истинный положительный
  2. Соответствующий элемент B не находится в том же кластере. это ложный отрицательный
  3. Несоответствующий элемент B находится в том же кластере. is является ложным положительным
  4. Несоответствующий элемент B не находится в том же кластере. является истинным отрицательным.

Тогда просто использовать

Precision = истинные положительные/(истинные позитивы + ложных срабатываний)

Recall = истинные положительные/(истинные positivies + ложные негативы) как уже упоминалось кем-то

1

См. «Введение в информационный поиск», глава 18 (кластеризация жиров), для способов оценки алгоритмов кластеризации. http://nlp.stanford.edu/IR-book/html/htmledition/flat-clustering-1.html

Этот раздел книги также может оказаться полезным, поскольку оно рассматривает такие показатели, как точность и отзыв: http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-unranked-retrieval-sets-1.html

+0

ty для ответа можно проверить этот вопрос тоже? http://stackoverflow.com/questions/32404742/how-to-calculate-clustering-success-pre-assigment-true-classes-are-known – MonsterMMORPG

8

Есть несколько других мер кластерного действия, которые я использовал в в некоторых исследованиях I» вы делали доступ к методам кластеризации. В случаях, когда у вас есть набор данных, помеченный классами (контролируемая кластеризация), вы можете использовать точность и отзыв, как указано выше, или чистоту и энтропию.

Чистота кластера = число вхождений наиболее часто встречающихся класса/размер кластера (это должно быть высоким)

Энтропия кластера = мера того, как дисперсная классы с кластером (это должно быть низким)

В тех случаях, когда у вас нет меток классов (неконтролируемая кластеризация), внутреннее и взаимное сходство являются хорошими мерами.

внутрикластерного подобие для одного кластера = средний косинус сходство всех пар в пределах кластера (это должно быть высокими)

межкластерных подобий для одного кластера = среднего косинуса сим всех элементов в одном кластере по сравнению со всеми пунктами в каждом другом кластере (это должно быть низким)

В этой статье содержатся некоторые хорошие описания всех четырех этих мер. http://glaros.dtc.umn.edu/gkhome/fetch/papers/edcICAIL05.pdf

Хорошая связь с неконтролируемой F-меркой, я изучаю это прямо сейчас.

+0

Действительно ли это «неконтролируемая F-мера», или это «контролируемый F-меру "(нужно вычислить истинную истину), которая используется только для оценки неконтролируемой кластеризации? – shn

0

Если рассматривать один из наборов, скажем, в качестве золота кластеризации и другой набор (B) как выход вашего процесса кластеризации (точный) точность и вспомнить значение может быть оценено как:

Точность = (Количество элементов, общих для а и в)/(число элементов в B)

Напомним = (Количество элементов, общих для а и в)/(число элементов в A)

Из этой стандартной меры F можно также оценить.

+1

Это не так просто. A и B - разные * разбиения * набора данных, а не отдельные части. Как правило, как A, так и B просто содержат полный набор данных. Следовательно, вы не можете использовать * элементы *. Вы можете использовать все * пары * объектов, где пара существует в кластеризации тогда и только тогда, когда оба элемента находятся в * том же * кластере. –

1

Проблема с точностью и отзывом состоит в том, что они обычно требуют, чтобы вы имели представление о том, что такое «истинные» метки, тогда как во многих случаях (и в вашем описании) вы не знаете этикеток, но знаете раздел для сравнения.Я предлагаю скорректированный индекс Rand возможно:

http://en.wikipedia.org/wiki/Rand_index