1

Я использую двунаправленный RNN для обнаружения события несбалансированного возникновения. Положительный класс на 100 раз меньше, чем отрицательный. В то время как никакое использование регуляризации я не могу получить точность 100% на поезд и 30% на основании проверки. Я включаю l2-регуляризацию, и результат составляет только 30% -ную точность в наборе поездов, а не более длительное обучение и 100% -ную точность при наборе валидации.RNN L2 Регуляризация прекращает обучение

Я думал, что, может быть, мои данные слишком малы, поэтому просто для эксперимента я объединил набор поездов с набором тестов, который я раньше не использовал. Ситуация была такой же, как я бы использовал l2-регуляризацию, которой я не занимался сейчас. Я получаю точность 30% на поезд + тест и проверку.

При использовании 128-ти единиц и 80 временных меток в упомянутых экспериментах Когда я увеличил количество скрытых единиц до 256, я снова могу переопределить поезда + тестовый набор, чтобы получить 100% -ную точность, но все еще только 30% от установленного набора.

Я попробовал так много вариантов для гиперпараметров и почти никакого результата. Может быть, взвешенная кросс-энтропия вызывает проблему, в данных экспериментах вес положительного класса равен 5. При попытке увеличения веса результаты часто хуже примерно на 20% от точности.

Я пробовал ячейки LSTM и GRU, без разницы.

Лучшие результаты, которые я получил. Я попробовал 2 скрытых слоя с 256 скрытыми единицами, потребовалось около 3 дней вычисления и 8 ГБ памяти GPU. Я получил около 40-50% точности, прежде чем он снова начнет переработку, тогда как регулирование l2 продолжается, но не настолько сильное.

Есть ли общее правило, что делать в этой ситуации? Я ничего не смог найти.

+1

Ваш вопрос может быть лучше подходит для http://stats.stackexchange.com/ – NPE

ответ

1

Слишком много скрытых устройств может переоборудовать вашу модель. Вы можете попробовать с меньшим количеством скрытых единиц. Как вы упомянули, обучение с большим количеством данных может повысить производительность. Если у вас недостаточно данных, вы можете создать некоторые искусственные данные. Исследователи добавляют искажения к своим данным обучения, чтобы увеличить их размер данных, но контролируемым образом. Этот тип стратегии очень хорош для данных изображения, но, конечно, если вы имеете дело с текстовыми данными, возможно, вы можете использовать некоторую базу знаний, которая может повысить производительность.

Существует множество работ по использованию баз знаний для решения задач НЛП и глубокого обучения.

Смежные вопросы