Как вычислить точность и отзыв в кластеризации?

Я действительно запутался, как вычислить точность и вызвать в приложениях кластеризации.Как вычислить точность и отзыв в кластеризации?

У меня есть следующие ситуации:

Даны два множества A и B. При использовании уникального ключа для каждого элемента можно определить, какой из элементов A и B матча. Я хочу сгруппировать эти элементы на основе функций (конечно, не используя уникальный ключ).

Я делаю кластеризацию, но я не уверен, как вычислить точность и вспомнить. Формулы, согласно статье «Расширенные Графики производительности для кластера Retrieval» (http://staff.science.uva.nl/~nicu/publications/CVPR01_nies.pdf) являются:

р = точность = соответствующие извлекаемые элементы/извлекаемые изделия и г = напомним = соответствующие полученные элементы/соответствующие пункты

Я действительно не понимаю, какие элементы попадают под какую категорию.

Что я сделал до сих пор, я проверил внутри кластеров, сколько совпадающих пар у меня (с использованием уникального ключа). Это уже одна из точности или отзыва? И если да, то какой из них и как я могу вычислить другой?

Обновление: Я только что нашел еще один документ с названием «F-Measure для оценки неконтролируемого кластеризации с неопределенным количеством кластеров» на http://mtg.upf.edu/files/publications/unsuperf.pdf.

источник

2009-03-18 Christian Stade-Schuldt

Я думаю, вы найдете wikipedia полезный article on precision and recall. Короче говоря:

точности = истинные позитивы/(истинные позитивы + ложных срабатываний)

Напомнит = истинные положительные/(истинное positivies + ложные негативы)

источник

2009-03-23 15:13:33 theycallmemorty

Я думаю, что есть проблемы с вашими определениями.

Точность и отзыв подходят для проблемы классификации, которые в основном являются проблемами с двумя кластерами. Если бы вы объединились во что-то вроде «хороших элементов» (= извлеченные элементы) и «плохие элементы» (= не получаемые элементы), тогда ваше определение имеет смысл.

В вашем случае вы подсчитали процент правильной кластеризации из всех элементов, что похоже на точность, но на самом деле не потому, что, как я сказал, определения не применяются.

источник

2009-03-18 12:00:03 daphshez

вы можете проверить этот вопрос тоже? http://stackoverflow.com/questions/32404742/how-to-calculate-clustering-success-pre-assigment-true-classes-are-known – MonsterMMORPG

Что делать с этой проблемой является:

Один из множеств A и B является «положительным». Давайте предположим, что А является положительным

Учитывая то, что для элемента А в кластере

соответствующий элемент из В, находится в том же самом кластере. это истинный положительный
Соответствующий элемент B не находится в том же кластере. это ложный отрицательный
Несоответствующий элемент B находится в том же кластере. is является ложным положительным
Несоответствующий элемент B не находится в том же кластере. является истинным отрицательным.

Тогда просто использовать

Precision = истинные положительные/(истинные позитивы + ложных срабатываний)

Recall = истинные положительные/(истинные positivies + ложные негативы) как уже упоминалось кем-то

источник

2009-03-30 12:43:16 Midhat

См. «Введение в информационный поиск», глава 18 (кластеризация жиров), для способов оценки алгоритмов кластеризации. http://nlp.stanford.edu/IR-book/html/htmledition/flat-clustering-1.html

Этот раздел книги также может оказаться полезным, поскольку оно рассматривает такие показатели, как точность и отзыв: http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-unranked-retrieval-sets-1.html

источник

2009-03-30 12:47:04 SquareCog

ty для ответа можно проверить этот вопрос тоже? http://stackoverflow.com/questions/32404742/how-to-calculate-clustering-success-pre-assigment-true-classes-are-known – MonsterMMORPG

Есть несколько других мер кластерного действия, которые я использовал в в некоторых исследованиях I» вы делали доступ к методам кластеризации. В случаях, когда у вас есть набор данных, помеченный классами (контролируемая кластеризация), вы можете использовать точность и отзыв, как указано выше, или чистоту и энтропию.

Чистота кластера = число вхождений наиболее часто встречающихся класса/размер кластера (это должно быть высоким)

Энтропия кластера = мера того, как дисперсная классы с кластером (это должно быть низким)

В тех случаях, когда у вас нет меток классов (неконтролируемая кластеризация), внутреннее и взаимное сходство являются хорошими мерами.

внутрикластерного подобие для одного кластера = средний косинус сходство всех пар в пределах кластера (это должно быть высокими)

межкластерных подобий для одного кластера = среднего косинуса сим всех элементов в одном кластере по сравнению со всеми пунктами в каждом другом кластере (это должно быть низким)

В этой статье содержатся некоторые хорошие описания всех четырех этих мер. http://glaros.dtc.umn.edu/gkhome/fetch/papers/edcICAIL05.pdf

Хорошая связь с неконтролируемой F-меркой, я изучаю это прямо сейчас.

источник

2009-04-30 16:20:15

Действительно ли это «неконтролируемая F-мера», или это «контролируемый F-меру "(нужно вычислить истинную истину), которая используется только для оценки неконтролируемой кластеризации? – shn

Если рассматривать один из наборов, скажем, в качестве золота кластеризации и другой набор (B) как выход вашего процесса кластеризации (точный) точность и вспомнить значение может быть оценено как:

Точность = (Количество элементов, общих для а и в)/(число элементов в B)

Напомним = (Количество элементов, общих для а и в)/(число элементов в A)

Из этой стандартной меры F можно также оценить.

источник

2012-06-26 14:25:50 user1483031

Это не так просто. A и B - разные * разбиения * набора данных, а не отдельные части. Как правило, как A, так и B просто содержат полный набор данных. Следовательно, вы не можете использовать * элементы *. Вы можете использовать все * пары * объектов, где пара существует в кластеризации тогда и только тогда, когда оба элемента находятся в * том же * кластере. –

Проблема с точностью и отзывом состоит в том, что они обычно требуют, чтобы вы имели представление о том, что такое «истинные» метки, тогда как во многих случаях (и в вашем описании) вы не знаете этикеток, но знаете раздел для сравнения.Я предлагаю скорректированный индекс Rand возможно:

http://en.wikipedia.org/wiki/Rand_index

источник

2012-08-01 15:43:12

Как вычислить точность и отзыв в кластеризации?

ответ

Смежные вопросы