2012-04-29 3 views
4

Как заставить движок успешно распознавать фразу из голосового файла (wav/mp3/etc ...)?Как распознать фразу из голосового файла

Например, если у меня будет голосовой файл и письменный текст контекста того же файла, чтобы он распознавал записанные слова в голосовом файле.

Я попытался поиграть с SpeechRecognitionEngine, но пока не успел.

Буду признателен за идеи, так как это мой первый раз, когда речь идет о методах распознавания речи.

Я видел примеры речи в текст, используя словари, но я не уверен, как это может быть полезно здесь. Я думал о том, чтобы преобразовать весь файл голоса в текст, а затем просто искать конкретную фразу в этом тексте, но я не думаю, что это правильный путь. Кажется, не имеет смысла конвертировать, например, 5hrs голос в текст .... или, может быть, использовать определенную фразу в качестве «словаря» и искать этот элемент в голосовом файле.

+0

Спасибо за понижающих парней ... но можете ли вы помочь и с некоторым ответом? :) – user990635

+0

Я немного отредактировал вопрос, с указаниями, которые я думал ... То, что пришло мне в голову, состояло в том, чтобы преобразовать весь текст в текст и выполнить простой поиск, но это похоже на глупое решение. , – user990635

ответ

6

Возможно, вам нужно найти определенное слово в длинном файле. Этот метод называется «Keyword Spotting», он сильно отличается от распознавания речи, более эффективным. Obviosly вам не нужно расшифровывать весь файл, чтобы искать в нем слово, вы можете быстро просмотреть файл. Механизм распознавания речи Microsoft имеет очень ограниченную поддержку определения ключевых слов.

Двигатели с открытым кодом, такие как CMUSphinx, могут быть использованы для эффективного использования ключевых слов. См. Дальнейшие ссылки на информацию о how to implement wake-up listening with pocketsphinx.

Для получения дополнительной информации о базовых алгоритмах см ACOUSTIC KEYWORD SPOTTING IN SPEECH WITH APPLICATIONs TO DATA MINING

0

Согласно статье MSDN Getting Started with Speech Recognition.

Шаги, которые вам нужно сделать (из статьи). Обратите внимание на шаг грамматики создания распознавания. В статье предлагается использовать классы GrammerBuilder или Choices. приложение распознавания

Речь, как правило, выполняет следующие основные операции:
- Запуск распознавания речи.
- Создать грамматику распознавания.
- Загрузите грамматику в распознаватель речи.
- Регистрация для уведомления о событии распознавания речи.
- Создайте обработчик для события распознавания речи.

0

Если вы пытаетесь конвертировать аудио файлов с помощью двигателей речи Microsoft, вы должны использовать какую-то помощь. Во-первых, единственным поддерживаемым форматом является WAV (его можно закодировать как PCM, ALaw или uLaw), но вы должны убедиться, что ваш файл находится в формате, поддерживаемом вашим распознавателем. Вы также должны проверить частоту дискретизации. Распознаватели поддерживают только фиксированный набор выборок.На моей машине,

  • 8 бит на выборку
  • одноканальные моно
  • 22050 выборок в секунду
  • кодирования ИКМ

работает хорошо. См. https://stackoverflow.com/a/6203533/90236 для получения дополнительной информации. Возможно, вам придется повторно выполнить выборку или перекодировать файлы WAV с помощью инструмента, такого как audacity. См. https://stackoverflow.com/a/9467044/90236.

Простой пример, чтобы начать работу, находится в SAPI and Windows 7 Problem.

Последнее, (я всегда повторяю этот момент, извините) есть замечательная статья о распознавании программирования в Windows .NET. См. http://msdn.microsoft.com/en-us/magazine/cc163663.aspx, он немного устарел, но отличное введение.