У меня есть набор данных для классификации, который состоит из обучения размером 8000x (32x32x3 изображений) и теста размера 2000x (изображения одинакового размера).
Я выполняю очень простую задачу - отличить транспортные средства и фон. Я использую cross_entropy как функцию стоимости.Избавление от насыщения softmax в сети DeepMNIST для классификации цветных изображений в TensorFlow
Сеть, которую я использую, почти такая же, как и в DeepMNIST, за исключением того, что первый фильтр имеет размер 3x ... вместо 1x ... потому что это цветное изображение, а выход имеет размер два, потому что есть только два класса: транспортные средства или нет. Увидев результаты этой относительно прямой задачи, я задал себе несколько допросов:
-Первый, если я не использую достаточно большой размер партии (> 200), я застрял почти каждый раз с точностью 62% (в локальном оптимуме) по двум наборам, которых недостаточно для моей потребности
-Всегда всякий раз, когда я использую правый оптимизатор Адам с правильным размером партии и скоростью обучения, я поднимаюсь до 92%, однако выходы всегда очень тревожно хорошо как [0.999999999 0.000000000001].
Это не должно происходить, поскольку задача сложна.
Поэтому, когда я иду полностью сверточно, чтобы создать тепловую карту, я получил 1.000001 почти везде из-за насыщения.
Что я делаю неправильно? Считаете ли вы, что отбеливание решит проблему? Нормализация партии? Что-то другое ? С чем я сталкиваюсь?
Отбеливание данных и добавление нормализации партии только ухудшают результат! Насыщенность есть, и точность не достаточно хороша! Есть идеи ? – jean