Давайте поговорим о проблеме классификации MultiLabel с метками A, B и C. Я могу рассчитать точность/вызов для каждой метки, как следующее:Правильно ли среднее значение Precision/Recall для глобальной оценки эффективности многолучевых измерений?
- Точности: Correct NodeX Назначение/Всего NodeX Задание
- Напомним: Правильно Подборки NodeX/Total NodeX Правда Появления
- F1 измерения: 2 * (Precision * Напомним)/(Precision + Recall)
Поскольку у меня есть 3 этикетки Я хотел бы получить глобальное измерение производительности путем усреднения t значения каждого отдельного узла, как предлагается here.
Однако я заметил, что это нарушает инвариант меры F1! Пример для уточнения:
Label, Precision, Recall, F1
A, 0.5, 1.0, 0.666
B, 1.0, 1.0, 1.0
C, 0.5, 0.5, 0.5
AVG, 0.666, 0.833, 0.611
NOTE: (2 * (0.666 * 0.833)/(0.666 + 0.833)) != 0.611
Правильно ли пытаться придумать метрики на основе глобального узла для измерения производительности MultiLabel классификации? Есть ли лучший способ сделать это?
ПРИМЕЧАНИЕ: Я знаю другие показатели эффективности (Точность, ROC/AUC и т. Д.), Но я хотел бы также разобраться в этом.
Я думаю, что это может быть более уместным на [cstheory.se] –
Или, возможно, CrossValidated: http://stats.stackexchange.com/ – seaotternerd