Это зависит от расположения сети, скорости обучения и параметров регуляризации, если вы их используете.
Возможно, вам также повезет или повезет с начальными весами вашей сети, поскольку в сети обратного распространения они должны быть инициализированы случайным образом. Однако вероятность случайного приближения к локальному минимуму небольшая.
Для функции XOR должен быть достаточно одного скрытого слоя с двумя узлами.
Узел смещения не требуется. Регуляризация также не требуется, поскольку переопределение обычно не является проблемой для функции XOR.
Что касается скорости обучения, то от верхней части головы 0,05 хорошо, но у меня нет веских доказательств. Поэкспериментируйте немного, чтобы узнать, можете ли вы найти лучшее значение.
Тематика обсуждается очень интуитивно в курсе «Машиноведение». Вы можете проверить видео на своем сайте Preview. Найдите раздел «Нейронные сети: обучение (неделя 5)» на этой странице.
С хорошей инициализацией вам не нужно тренироваться. :) – alfa