Правильно ли среднее значение Precision/Recall для глобальной оценки эффективности многолучевых измерений?

Давайте поговорим о проблеме классификации MultiLabel с метками A, B и C. Я могу рассчитать точность/вызов для каждой метки, как следующее:Правильно ли среднее значение Precision/Recall для глобальной оценки эффективности многолучевых измерений?

Точности: Correct NodeX Назначение/Всего NodeX Задание
Напомним: Правильно Подборки NodeX/Total NodeX Правда Появления
F1 измерения: 2 * (Precision * Напомним)/(Precision + Recall)

Поскольку у меня есть 3 этикетки Я хотел бы получить глобальное измерение производительности путем усреднения t значения каждого отдельного узла, как предлагается here.

Однако я заметил, что это нарушает инвариант меры F1! Пример для уточнения:

Label, Precision, Recall, F1 
A,  0.5,  1.0, 0.666 
B,  1.0,  1.0, 1.0 
C,  0.5,  0.5, 0.5 
AVG, 0.666,  0.833, 0.611 

NOTE: (2 * (0.666 * 0.833)/(0.666 + 0.833)) != 0.611

Правильно ли пытаться придумать метрики на основе глобального узла для измерения производительности MultiLabel классификации? Есть ли лучший способ сделать это?

ПРИМЕЧАНИЕ: Я знаю другие показатели эффективности (Точность, ROC/AUC и т. Д.), Но я хотел бы также разобраться в этом.

источник

2013-12-13 Gevorg

Я думаю, что это может быть более уместным на [cstheory.se] –

Или, возможно, CrossValidated: http://stats.stackexchange.com/ – seaotternerd

В среднем F1 полагает, что точность и отзыв одинаково взвешены. Но в действительности это неверно. Использовать усредненную точность и вспомнить, чтобы вычислить оценку F1, имеет больше смысла, поскольку это лучше отразится на точности или отзыве. Проверьте это article для более подробной информации.

источник

2013-12-13 01:58:16 lennon310

Правильно ли среднее значение Precision/Recall для глобальной оценки эффективности многолучевых измерений?

ответ

Смежные вопросы