Я реализую программное обеспечение для распознавания речи с использованием коэффициентов Мел-Частоты Кепструма. В частности, система должна распознавать одно заданное слово. Поскольку аудиофайл я получил MFCC в матрице с 12 строками (MFCC) и столько же столбцов, сколько количество речевых кадров. Я делаю среднее число строк, поэтому я получаю вектор с только 12 строками (i-я строка является средним значением всех i-MFCC всех кадров). Мой вопрос заключается в том, как обучать классификатор для определения слова? У меня есть тренировочный набор с только положительными образцами, MFCC, которые я получаю из нескольких аудиофайлов (несколько записей одного и того же слова).Простой детектор слова с использованием MFCC
0
A
ответ
1
Я делаю среднее число строк, поэтому я получаю вектор с только 12 строками (i-я строка является средним значением всех i-MFCC всех кадров).
Это очень плохая идея, потому что вы потеряете всю информацию о слове, вам нужно проанализировать всю MFCC последовательность, а не часть его
Мой вопрос заключается в том, чтобы обучить классификатор обнаружить слово?
Простая форма было бы GMM классификатор, вы можете проверить здесь:
В более сложной форме вам нужно научиться более сложные модели, как СММ. Вы можете узнать больше о HMM из учебника, как этот один
http://www.amazon.com/Fundamentals-Speech-Recognition-Lawrence-Rabiner/dp/0130151572
Смежные вопросы
- 1. Простой детектор javascript устройства пользователя
- 2. распознавание речи с использованием HMM или MFCC
- 3. Поезд MFCC с использованием машинного алгоритма обучения
- 4. Проверка MFCC
- 5. Простой рекурсивный детектор плагиата для массивов
- 6. Как создать очень простой детектор граничных ячеек
- 7. Простой детектор SIFT ISSUE на OpenCV
- 8. Антенный детектор лица с использованием камеры андроида
- 9. детектор Blob OpenCV с использованием лапласиана
- 10. Расчет Delta MFCC
- 11. Использование коэффициентов MFCC для обнаружения простой голосовой активности
- 12. манипулирование файлом MFCC
- 13. Как получить MFCC с TarsosDSP?
- 14. Как подготовить алгоритм машинного обучения с использованием векторов коэффициентов MFCC?
- 15. Как получить функции mfcc с октавой
- 16. Android - камера как детектор движения
- 17. тривиальный детектор присутствия с малиной с использованием python
- 18. Код MATLAB для расчета MFCC
- 19. Как сделать алгоритм MFCC?
- 20. MFCC в распознавании речи
- 21. Детектор плагиата
- 22. Дельта-коэффициенты от mfcc
- 23. MFCC означает, нормализация
- 24. детектор языка
- 25. слова с использованием AWK
- 26. Применение нейронной сети к MFCC для речевых сегментов переменной длины
- 27. Сравните два произносимых слова с MFCC и DTW с помощью библиотеки Aquila
- 28. Быстрый детектор языка для командной строки с использованием
- 29. Коррупции в куче с использованием OpenCV C++ HOG детектор
- 30. Интернет-детектор с использованием в то время как петля
Привет, Большое спасибо за ваш ответ. Я получил MFCC из голосовых фреймов, и я построю модель гауссовской смеси с помощью функции gmdistribution. После этого я тестирую модель с новым аудио. Я снова получаю MFCC от нового аудио, а с задней функцией получаю вероятность каждого MFCC. Теперь, как система может принять решение об этой вероятности? –
Вы получаете вероятность для всех слов, которые вы ищете, и слово с наивысшей вероятностью является ответом. В приведенной выше ссылке говорится, что «тестовая речь классифицируется как цифра с GMM, которая дает максимальную ценность логарифмического правдоподобия». –
Хорошо. Теперь у меня есть слово, и я хочу знать, совпадает ли он с тем, который я использовал для построения модели гауссовой смеси. Поэтому я запускаю заднюю функцию с вводом MFCC этого аудио, и я получаю значение вероятности лога. Мне нужно сравнить это значение с порогом, чтобы решить, совпадает ли это слово с оригиналом? –