Простой детектор слова с использованием MFCC

Я реализую программное обеспечение для распознавания речи с использованием коэффициентов Мел-Частоты Кепструма. В частности, система должна распознавать одно заданное слово. Поскольку аудиофайл я получил MFCC в матрице с 12 строками (MFCC) и столько же столбцов, сколько количество речевых кадров. Я делаю среднее число строк, поэтому я получаю вектор с только 12 строками (i-я строка является средним значением всех i-MFCC всех кадров). Мой вопрос заключается в том, как обучать классификатор для определения слова? У меня есть тренировочный набор с только положительными образцами, MFCC, которые я получаю из нескольких аудиофайлов (несколько записей одного и того же слова).Простой детектор слова с использованием MFCC

источник

2015-02-17 Luigi Biasi

Я делаю среднее число строк, поэтому я получаю вектор с только 12 строками (i-я строка является средним значением всех i-MFCC всех кадров).

Это очень плохая идея, потому что вы потеряете всю информацию о слове, вам нужно проанализировать всю MFCC последовательность, а не часть его

Мой вопрос заключается в том, чтобы обучить классификатор обнаружить слово?

Простая форма было бы GMM классификатор, вы можете проверить здесь:

http://www.mathworks.com/company/newsletters/articles/developing-an-isolated-word-recognition-system-in-matlab.html

В более сложной форме вам нужно научиться более сложные модели, как СММ. Вы можете узнать больше о HMM из учебника, как этот один

http://www.amazon.com/Fundamentals-Speech-Recognition-Lawrence-Rabiner/dp/0130151572

источник

2015-02-17 13:46:07

Привет, Большое спасибо за ваш ответ. Я получил MFCC из голосовых фреймов, и я построю модель гауссовской смеси с помощью функции gmdistribution. После этого я тестирую модель с новым аудио. Я снова получаю MFCC от нового аудио, а с задней функцией получаю вероятность каждого MFCC. Теперь, как система может принять решение об этой вероятности? –

Вы получаете вероятность для всех слов, которые вы ищете, и слово с наивысшей вероятностью является ответом. В приведенной выше ссылке говорится, что «тестовая речь классифицируется как цифра с GMM, которая дает максимальную ценность логарифмического правдоподобия». –

Хорошо. Теперь у меня есть слово, и я хочу знать, совпадает ли он с тем, который я использовал для построения модели гауссовой смеси. Поэтому я запускаю заднюю функцию с вводом MFCC этого аудио, и я получаю значение вероятности лога. Мне нужно сравнить это значение с порогом, чтобы решить, совпадает ли это слово с оригиналом? –

Простой детектор слова с использованием MFCC

ответ

Смежные вопросы