2016-11-28 5 views
0

Я тренирую классификатор нейронной сети SGD на очень несбалансированном наборе учебных материалов. Чтобы компенсировать недопредставленные классы, я выполняю фактическое обучение по набору случайных выборок s.t. классы с меньшим количеством примеров получают чаще.Пример неравномерно распределенного набора для обучения

Что такое принципиальный способ выбрать объем последнего набора против количества эпох, на котором он будет работать? Совет очень ценится.

ответ

0

Выполняю фактическое обучение по набору случайных выборок s.t. классы с меньшим количеством примеров чаще выбираются

Случайная выборка не гарантирует более высокое представление из недопредставленного класса; как следует из названия, выбор будет случайным.


вопрос имеет широкие возможности для ответов.

Нет серебряного пуля, чтобы увеличить представление из недопредставленного класса, обеспечивая при этом хорошую производительность модели. Некоторые основные вещи, чтобы попробовать будет,

  1. Под Sampling: Удаление некоторых более представленных экземпляров (если у вас есть достаточно данных)
  2. Over Sampling: Сделайте копии недопредставленным экземпляров

чтобы ответить на вопрос о количестве эпох тренировки на:

После того, как вы получите сбалансированный набор данных одним из указанных выше способов, вы р провести тренировку на нем, как если бы это был сбалансированный набор данных.


P.S. Обратите внимание, что вышеперечисленное не является единственным способом решения искаженного набора данных. В игру входит еще много факторов, таких как оценочные показатели и опробование различных гипотез.

Смежные вопросы