2016-06-27 4 views
-1

Я нашел, что в популярных наборах данных, таких как imagenet, cifar-100, количество изображений для каждой категории одинаково. Интересно, есть ли какие-либо плохие последствия, если образовательные изображения для классификации несбалансированы. (например, 100 для леопардов, в то время как 5000 для слонов)Любое плохое влияние несбалансированных данных при глубоком обучении?

ответ

1

Да, у вас могут быть проблемы в этом случае: скрытые слои будут больше ориентироваться на особенности слонов. Если вы увеличиваете количество скрытых фильтров или нейронов для размещения леопардов, вы рискуете чрезмерно сломанными слонами в этом процессе.

Основная проблема заключается в том, есть ли у вас достаточное изображение леопарда, чтобы отличить их от остальной части ввода. Если это так, и если вы загрузите данные обучения таким образом, чтобы леопарды составляли хороший баланс в первых 200-300 фотографиях, обученных, то последняя тренировка для слонов будет оказывать меньшее влияние на функции «обнаружены». Однако это сказывается на скорости обучения, а не на точности.

Смежные вопросы