Я занимаюсь распознаванием речи с использованием базы данных TIDigits, которая содержит цифры от нуля до девяти из разных колонок (много файлов).Как я могу работать с различными файлами речевых файлов в Matlab
Мне нужно извлечь 39 функций MFCC из каждого кадра и объединить их в одну матрицу (Характеристики матрицы) для классификации. Я сделал кадрирование и окно для каждого файла, и это привело к неравному количеству кадров для каждого файла.
Проблема, с которой я столкнулась, заключалась в разном количестве кадров из-за различной длины речевых файлов.
Как я могу справиться с этой проблемой без использования формул статистики?
Спасибо за ваш ответ , Но, обрезав длинные функции MFCC, повлияли ли они на точность классификатора? или вы не пробовали? – Sayf
@Sayf Он обязательно повлияет на точность классификатора, так как он потеряет некоторые функции. Однако разница должна быть относительно небольшой, хотя я не очень подробно их разбирал. – herohuyongtao
Когда вы сказали, что вы урезали длинный MFCC, это означает, что вы отбрасываете функции некоторых фреймов. Мой самый короткий файл содержит 17 кадров (25 мс), а самый длинный - 87 кадров ... Поэтому бессмысленно, если я удалю 60 кадров из самый длинный, большая часть сигнала будет проигнорирована. – Sayf