Предположим, что я разделил свои данные на набор тренировок и набор валидации. Я выполняю 5-кратное кросс-валидацию на своем тренировочном наборе, чтобы получить оптимальные гиперпараметры для моей модели, затем я использую оптимальные гиперпараметры для обучения модели и применения полученной модели в моем наборе проверки. Мой вопрос в том, разумно ли комбинировать набор обучения и проверки и использовать гиперпараметры, полученные из набора для создания окончательной модели?Объединить данные тренировки и данные валидации, как выбрать гиперпараметры?
ответ
Это нормально, если данные для обучения были относительно небольшими. и добавление набора валидации делает вашу модель значительно более сильной. Однако в то же время добавление новых данных делает ваши ранее выбранные гиперпараметры возможными субоптимальными (очень сложно показать, какое преобразование гиперпараметров вам необходимо применять, когда вы добавляете новые данные в свой набор обучения). Таким образом, вы балансируете две вещи: выигрываете в качестве модели из большего количества данных и возможных потерь из-за того, что трудно предсказать изменение значения гиперпараметров. В какой-то степени вы можете имитировать этот процесс, чтобы убедиться, что это имеет смысл, если у вас есть N баллов в данных обучения и M в валидации, вы можете попытаться разделить обучение дальше на куски с одинаковой пропорцией (таким образом, теперь N * (N/(N + M) и другие N * (M/(N + M))), поезда на первом и проверьте, передаются ли оптимальные гиперпараметры (более или менее) на оптимальные по всему набору тренировок - если это так, вы могут безопасно добавлять валидацию, так как они должны также переноситься. Если они этого не делают, риск может не быть полезен.
- 1. Как настроить гиперпараметры с данными валидации
- 2. Как выбрать данные и вставить данные одновременно?
- 3. Как выбрать и объединить данные объектов с jq?
- 4. Данные валидации в Ext.Model
- 5. Мат, данные тренировки в мл opencv
- 6. Данные для проверки и валидации нуль
- 7. Данные валидации с использованием api
- 8. Rails 5 - данные валидации достоверности
- 9. Powershell дублирующие данные и объединить
- 10. QTableView: как выбрать данные?
- 11. Добавить таблицу и объединить данные
- 12. Delphi и TIdTCPServer.OnExecute: Как правильно объединить данные
- 13. Как объединить данные в R?
- 14. Как объединить данные в stata
- 15. как объединить данные в python
- 16. Как создать/объединить данные панели?
- 17. Как объединить данные по столбцам?
- 18. Как объединить данные в Excel
- 19. Как объединить данные в elasticsearch
- 20. Как объединить данные в несколько
- 21. Как объединить данные в django?
- 22. Как объединить данные в многопоточность?
- 23. Как вы можете объединить данные?
- 24. Объединить данные в R
- 25. Объединить данные в Excel
- 26. Объединить данные через SQL
- 27. Как выбрать гиперпараметры для оценки SVC в scikit learn?
- 28. Объединить различные данные детализации
- 29. Как выбрать только данные и показать?
- 30. Как выбрать и передать данные из вида
Благодарим вас за ответ. Позвольте мне попытаться перефразировать ваши слова в моем понимании. весь набор тренировок, получить оптимальные гиперпараметры и первый показатель перекрестной проверки. Следующее обучение новой модели с оптимальными гиперпараметрами, полученными на предыдущем этапе, но только на данных обучения N * (N/(N + M), проверка на остальное N * (M/(N + M)) до ob получить второй валидационный балл. Сравните первый и второй балл, если их разница невелика, стоит их комбинировать, правильно? @lejlot – ascetic652