Я читаю книгу Юрафского для НЛП, и он упоминается для обучения MaxEnt, нам нужно регулировать вес, чтобы предотвратить переобучение. Но я не понимаю, почему это происходит. Может ли кто-нибудь объяснить, как переобучение происходит во время обучения, если мы не используем регуляризацию?Почему мы нуждаемся в регуляризации обучения MaxEnt?
ответ
Я не читал эту конкретную книгу, но, будучи практиком машинного обучения, могу сказать вам, что переоснащение возможно с любым типом модели. MaxEnt не будет исключением.
Вопрос, который вы, вероятно, должны задавать, заключается в следующем: «Что такое переопределение и что его вызывает?»
Отъезд: Distinguishing overfitting vs good prediction
переобучения, как правило, происходит, когда вы пытаетесь оценить слишком может коэффициенты, или в более общем случае иметь модель, которая является слишком гибким, учитывая количество обучающих данных, с которыми вы работаете. В результате ваша модель будет «изучать» шум в данных, снижая его прогностическую точность вне образца.
Есть два способа борьбы с переобучением. Либо (1) получить больше данных обучения, либо (2) уменьшить сложность вашей модели. Регуляризация относится к категории (2) и работает путем наказания «сложных» решений, тем самым уменьшая дисперсию. Что означает «сложный», отличается в зависимости от типа модели.
Существует множество материалов по переработке и регуляризации в Интернете и в учебниках по учебным материалам ML. Если вы хотите получить доступное объяснение, я бы рекомендовал «Изучение данных» Абу-Мостафа.
- 1. Почему мы нуждаемся в продолжении «семени»?
- 2. Где мы нуждаемся XSD.exe
- 3. Почему существует необходимость использования регуляризации в проблемах машинного обучения?
- 4. Почему мы нуждаемся в собственности и переменной в iOS?
- 5. Почему мы нуждаемся в Bower вместе с Nuget?
- 6. Создание данных обучения для Maxent classfier в Java
- 7. В каких случаях мы нуждаемся в защищенном наследовании?
- 8. Лучшее использование регуляризации
- 9. Мы действительно нуждаемся в @file или @since тегах JavaDoc?
- 10. Предварительно скомпилированные заголовки? Мы действительно нуждаемся в них
- 11. Почему мы не нуждаемся в i ++ в работе с файлами в java?
- 12. Почему мы нуждаемся в ParHashMap из Scala, в то время как ConcurrentHashMap из Java
- 13. Почему мы используем данные обучения в оценочной функции weka?
- 14. Запуск Maxent в R
- 15. Ошибка в регуляризации
- 16. Почему мы нуждаемся в слабой сущности вместо того, чтобы сделать ее сильной сущностью?
- 17. Почему не использовать термин регуляризации вместо термина разреженности в autoencoder?
- 18. Python Maxent Classifier
- 19. Почему мы используем регуляризацию для обучения нейронной сети?
- 20. TensorFlow: добавление регуляризации к LSTM
- 21. stanford maxent классификационное предсказание
- 22. Параметр регуляризации SVM-диапазона
- 23. Выбор параметра регуляризации
- 24. Есть ли какие-нибудь примеры, в которых мы нуждаемся в * защищенном наследовании на C++?
- 25. Мы нуждаемся в restclient в случае, если нам нужно поддерживать несколько форм-форм
- 26. MAXent классификатор NLTK мощность понимать
- 27. Как использовать glmnet без регуляризации
- 28. Push-уведомление, это токен устройства, в котором мы нуждаемся, или больше?
- 29. Как TensorFlow обрабатывает дифференциалы для L1-регуляризации?
- 30. Maxent - Переменные имена в карте ограничивающих факторов