3

Я тренирую сеть LSTM, и я ищу, чтобы понять лучшие практики обучения длинных последовательностей, длины O (1k) или более. Что такое хороший подход к выбору размера мини-бара? Каким образом искажение в распространенности лейбла повлияет на этот выбор? (Положительные результаты встречаются редко в моем сценарии). Стоит ли пытаться перебалансировать мои данные? Спасибо.Обучение RNN на длинных последовательностях

ответ

2

Возможно, вы захотите перебалансировать, чтобы они составляли 50/50. В противном случае он будет искажаться в том или ином классе.

Что касается размера партии, я бы стал такой же большой, как и в памяти.

Я не уверен, что LSTM смогут изучать зависимости от O (1k), но стоит попробовать. Вы можете посмотреть на что-то вроде wavenet, если вам нужны сверхновые зависимости.

https://deepmind.com/blog/wavenet-generative-model-raw-audio/

Смежные вопросы