Контекст: скажем, я обучил CNN на datasetA
, и я получил caffeModelA
.Caffe fine-tuning vs. begin from scratch
Текущая ситуация: новые фотографии прибывают, так что я могу создать новый набор данных, datasetB
Вопрос: бы эти две ситуации приводят к такому же caffemodel?
- слияние
datasetA
иdatasetB
и обучить сеть с нуля. - выполнить некоторые тонкой настройки существующих
caffeModelA
путем обучения его только наdatasetB
(как описано здесь: http://caffe.berkeleyvision.org/gathered/examples/finetune_flickr_style.html)
Это может показаться тупой вопрос, но я не совсем уверен, что его ответ. И это действительно важно, потому что, если два приближения приводят к одному результату, я могу сэкономить время, выполнив номер 2.
Примечание: имейте в виду, что это та же проблема, поэтому нет необходимости менять архитектуру здесь, я просто планирую добавьте новые изображения в тренировку.
Отличный ответ сэр! Моя интуиция заключалась в том, что последовательность градиентов будет отличаться, но мне нужно подтверждение, и вы убедили меня :) Фактически, именно так я делаю это прямо сейчас: начиная с нуля - хотя результаты могут быть очень похожими, но, возможно, это стоит того дайте ему практическую попытку и сравните. Большое спасибо за ваш ответ!(кстати, я тренируюсь на довольно большом количестве эпох, 50000) –
@GuiemBosch осторожно ... caffe идет по итерациям, а не эпохам. число эпох = (размер партии * num-iterations)/# training-samples. – user1269942