2015-12-26 6 views
4

Мне нужно обучить двунаправленную модель LSTM для распознавания дискретной речи (индивидуальные номера от 0 до 9). Я записал речь из 100 колонок. Что я должен делать дальше? (Предположим, я разбиваю их на отдельные .wav-файлы, содержащие по одному числу на файл). Я буду использовать mfcc в качестве функций для сети.Как подготовить набор данных для распознавания речи

Кроме того, я хотел бы знать разницу в наборе данных, если я буду использовать библиотеку, которая поддерживает СТС (Коннекшионистский Temporal классификации)

ответ

3

Вы можете использовать ответ/руководящие указания here

В зависимости в какой библиотеке вы создаете свой LSTM (pybrain, theano, keras), вы можете просмотреть их документацию.

Я бы рекомендовал использовать Theano (Binary LSTM link) или Keras (Tutorial) для этого, потому что они достаточно просты для понимания и хорошо документированы.

надеюсь, что это помогает.

Смежные вопросы