После прохождения урока Caffe здесь: http://caffe.berkeleyvision.org/gathered/examples/mnist.htmlТрудно понять пример Caffe MNIST
Я действительно путают о различных (и эффективной) модели, используя в этом учебнике, который определен здесь: https://github.com/BVLC/caffe/blob/master/examples/mnist/lenet_train_test.prototxt
As Я понимаю, что сверточный слой в Caffe просто вычисляет сумму Wx + b для каждого входа без применения какой-либо функции активации. Если мы хотим добавить функцию активации, мы должны добавить еще один слой сразу под этим сверточным слоем, например Sigmoid, Tanh или Relu. Любая документация/учебник, который я прочитал в Интернете, применяет функцию активации к единицам нейронов.
Это оставляет мне большой знак вопроса, поскольку мы можем видеть только сверкающие слои и чередующиеся слои в модели. Надеюсь, кто-то может дать мне объяснение.
Как сайт записка, другое сомнение для меня является max_iter в этом решателе: https://github.com/BVLC/caffe/blob/master/examples/mnist/lenet_solver.prototxt
У нас есть 60.000 изображений для обучения, 10000 изображений для тестирования. Итак, почему max_iter здесь всего 10.000 (и он все еще может получить> 99% точности)? Что делает Caffe на каждой итерации? На самом деле, я не уверен, соответствует ли точность точности правильного размера прогноза/теста.
Я очень удивлен этим примером, так как я не нашел никакого примера, рамки, которые могут достичь этой высокой точности в течение этого очень короткого времени (всего 5 минут, чтобы получить коэффициент точности 99%). Следовательно, я сомневаюсь, что должно быть что-то, что я неправильно понял.
Спасибо.
Вы можете прочитать [здесь] (http://stackoverflow.com/a/33786620/1714410) больше о 'batch_size' и' max_iter' в 'solver.prototxt'. – Shai
Эй, можете ли вы объяснить о первой проблеме, почему уровни активации кофе не существуют после сверточного слоя. – hunch