Я пытаюсь понять и реализовать LSTM. Я понимаю, что им нужно определить длину последовательности T, и обучение выполняется партиями. Таким образом, мы подали в сеть несколько последовательностей длины T. Теперь LSTM нуждается в предыдущем состоянии в качестве ввода, которое, как я понимаю, инициализируется нулем. Мой вопрос в том, является ли состояние сбрасывается до нуля после каждой последовательности? например, у меня есть последовательность 1, вектор состояния переносится вперед в этой последовательности, а затем я помещаю ее в ноль для следующей последовательности? Или переносится ли она в следующую последовательность 2? Если да, то как это делается для несвязанных последовательностей; например, у меня есть образцы из двух разных текстов, и было бы бессмысленно переносить состояние из текста 1 в текст 2; как это делается на практике? Что касается времени тестирования, то вектор состояния инициализируется как ноль и переносится для всей последовательности или сбрасывается после каждой подпоследовательности?Сброс состояния в LSTM во время обучения и тестирования
Примечание: Я помещаю этот тег также в Tensorflow, так как это каркас, который я использую, и, возможно, кто-то из меня может мне помочь.