Выполняю фактическое обучение по набору случайных выборок s.t. классы с меньшим количеством примеров чаще выбираются
Случайная выборка не гарантирует более высокое представление из недопредставленного класса; как следует из названия, выбор будет случайным.
вопрос имеет широкие возможности для ответов.
Нет серебряного пуля, чтобы увеличить представление из недопредставленного класса, обеспечивая при этом хорошую производительность модели. Некоторые основные вещи, чтобы попробовать будет,
- Под Sampling: Удаление некоторых более представленных экземпляров (если у вас есть достаточно данных)
- Over Sampling: Сделайте копии недопредставленным экземпляров
чтобы ответить на вопрос о количестве эпох тренировки на:
После того, как вы получите сбалансированный набор данных одним из указанных выше способов, вы р провести тренировку на нем, как если бы это был сбалансированный набор данных.
P.S. Обратите внимание, что вышеперечисленное не является единственным способом решения искаженного набора данных. В игру входит еще много факторов, таких как оценочные показатели и опробование различных гипотез.