Мне нужно обучить двунаправленную модель LSTM для распознавания дискретной речи (индивидуальные номера от 0 до 9). Я записал речь из 100 колонок. Что я должен делать дальше? (Предположим, я разбиваю их на отдельные .wav-файлы, содержащие по одному числу на файл). Я буду использовать mfcc в качестве функций для сети.Как подготовить набор данных для распознавания речи
Кроме того, я хотел бы знать разницу в наборе данных, если я буду использовать библиотеку, которая поддерживает СТС (Коннекшионистский Temporal классификации)