Мой вопрос о тренинге, установленного в контролируемой искусственной нейронной сети (ИНС)обучения нейронной сети набор
обучающего набора, так как некоторые из вас, наверное, знаете, состоит из пар (входной, желаемый выход)
сама фаза обучения является следующей
для каждой пары в обучающем множество
-мы введите первое значение пары и вычислить погрешность выходной т.е. насколько это сгенерированный от желаемого выхода, который является второе значение пары
-основана на это значение ошибки мы используем backpropagate алгоритм для вычисления веса градиентов и обновления весов ИНС
конец для
Теперь предположим, что есть pair1, pair2, ... пара м ... в обучающем наборе
мы принимаем pair1, произвести некоторую ошибку, веса обновлений, а затем принять pair2 и т.д.
позже мы достигаем пару метров, производят некоторые ошибки и обновления веса,
Мой вопрос в том, что, если это обновление веса после пары m устранит некоторое обновление веса или даже обновления, которые произошли раньше?
Например, если пара m будет устранять обновления веса, произошедшие после пары 1 или пары 2, или оба, то, хотя ANN будет производить разумный вывод для ввода m, он будет забывать обновления для пары 1 и пары 2 и результат для входов 1 и 2 будет неудовлетворительным, , тогда в чем смысл тренировки ??
Если мы снова поезд ИНС с pair1 и pair2, после пары м
спасибо за комментарий, но, честно говоря, до сих пор я никогда не слышал о обновлениях параметров, чтобы использовать все данные или их часть одновременно:) Является ли это популярной стратегией? – mangusta
Да, я бы сказал, что это очень популярная стратегия; вероятно, более популярным, чем SGD. У них разный оптимум b/c они не используют ** истинный ** градиент, а используют его аппроксимацию: приближение, созданное добавлением всех градиентов вместе. – danelliottster