Как подготовить набор данных для распознавания речи

Мне нужно обучить двунаправленную модель LSTM для распознавания дискретной речи (индивидуальные номера от 0 до 9). Я записал речь из 100 колонок. Что я должен делать дальше? (Предположим, я разбиваю их на отдельные .wav-файлы, содержащие по одному числу на файл). Я буду использовать mfcc в качестве функций для сети.Как подготовить набор данных для распознавания речи

Кроме того, я хотел бы знать разницу в наборе данных, если я буду использовать библиотеку, которая поддерживает СТС (Коннекшионистский Temporal классификации)

источник

2015-12-26 udani

Вы можете использовать ответ/руководящие указания here

В зависимости в какой библиотеке вы создаете свой LSTM (pybrain, theano, keras), вы можете просмотреть их документацию.

Я бы рекомендовал использовать Theano (Binary LSTM link) или Keras (Tutorial) для этого, потому что они достаточно просты для понимания и хорошо документированы.

надеюсь, что это помогает.

источник

2016-01-15 13:53:41

Как подготовить набор данных для распознавания речи

ответ

Смежные вопросы