2016-10-13 4 views
0

Я прочитал много статей с классификационным фокусом, и большинство из них сказали, что использование AUC-PR лучше при работе с несбалансированной проблемой .. такие как это цитаты из here:Какое усреднение AUC-ROC/AUC-PR на scikit-learn обычно используется на бумагах при сравнении классификаторов

большого изменения числа числа ложных срабатываний может привести к небольшому изменению ложных срабатываний, используемым в анализе ROC. Точность, с другой стороны, путем сравнения ложных срабатываний с истинными позитивами, а не с истинными негативами, отражает влияние большого числа отрицательных примеров на производительность алгоритма.

Тем не менее, я не уверен, какое усреднение в scikit-learn представляет собой расчет использования такой бумаги .. это макрос усреднения или взвешенный?

ответ

0

Это хороший вопрос. Для двоичной проблемы проблема дисбаланса класса не влияет на ваш показатель AUC (именно поэтому AUC часто является предпочтительной метрикой).

Для многоклассовой настройки это, однако, должно быть четко указано в документе, какую метрику они используют. Реализация по умолчанию в scikit-learn - макрос усреднение; Я предполагаю, что это их дефолт по какой-то причине.

+0

AUC Вы ссылаетесь на AUC-ROC или AUC-PR, или дисбаланс не повлияет на них обоих? – Ophilia

+0

Я имел в виду и то, и другое, но согласно этому документу (http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf), AUC-PR еще более способен справляться с несбалансированными распределениями классов. – Archie

Смежные вопросы