Системы распознавания голоса для встроенных приложений

Я пытаюсь исследовать доступные системы распознавания голоса и SDK для разработки приложения с поддержкой голоса в Windows CE. Я столкнулся с Нюансом, но не вижу ничего другого. Я предпочел бы .Net SDK, если возможно, но я думаю, что большинство из них будет C/C++. Я ценю любые предложения. Благодарю.Системы распознавания голоса для встроенных приложений

источник

2009-12-07 Dustin

Как указано в одном из моих комментариев выше, мы пытаемся распознать голос .Net SDK от Vangard Voice Systems. Он использует механизм распознавания голоса Vocon3200 от Nuance, который пользуется большим уважением и, похоже, хорошо работает в ранних тестах. Мы используем дешевый микрофон прямо сейчас и имеем некоторые проблемы с внешним шумом. Надеемся, что это будет разрешено с шумоподавляющими гарнитурами. Модель программного обеспечения немного не хватает в том, что она в основном перехватывает существующее не голосовое приложение. Из-за этого есть некоторые ограничения, и разработчик имеет ограниченный API. Каждый раз, когда вы пытаетесь упростить что-то подобное, вы делаете сложное решение сложнее. С учетом сказанного, мы действительно не смогли найти конкурирующий продукт, который удовлетворяет наши потребности в SDK SD для голосовых подключений мобильных приложений. В настоящее время у них есть прекрасная маленькая ниша.

Я бы предпочел пойти с C++ SDK от Nuance (для которого другая компания написала .Net-оболочки), но бизнес-модель Nuance предполагает, что мы разрабатываем продукт для перепродажи и имеем некоторые значительные роялти. Настоящий барьер для компании, которая хочет разрабатывать внутренние приложения.

источник

2010-03-04 16:01:35 Dustin

Try смотрит в Speech API Microsoft, http://msdn.microsoft.com/en-us/library/ms897381.aspx

Я считаю, что он работает на устройствах CE.

источник

2009-12-07 20:08:58

Из того, что я понимаю, SAPI доступен на устройствах CE, но реальным механизмом распознавания речи нет.Его необходимо либо разработать, либо приобрести у третьего лица. – Dustin

Ах, извините, что. Я думаю, что вы правы, он говорит, что они обеспечивают необходимые интерфейсы, но вам, возможно, придется самостоятельно разработать двигатель. Не обращайте внимания на это тогда :) –

Нюанс в основном купил всех. Они правят на рынке речи, я боюсь ...

Есть еще несколько компаний, которые занимаются технологией, но я не знаю, насколько они хорошо работают на встроенном рынке. Существует и Loquendo, оба из которых имеют сильные неанглийские присутствия (и их английский тоже неплох).

Тогда еще есть IBM. У них есть ViaVoice Embedded.

Одна из главных вещей, которые ожидают отрасли, - это посмотреть, что происходит в результате приобретения Microsoft TellMe, но я думаю, что на встроенном рынке они могут держаться подальше от того, чтобы перетащить обработку в «облако», что где TellMe существует уже давно.

источник

2009-12-14 21:35:59 Kitson

Мы решили попробовать SDK от Vangard Voice Systems, который позволяет подключить движок распознавания голоса Nuance к приложениям .Net. Кажется, что он работает до сих пор, но мы действительно поставим его на тест, как только мы переместим его в настоящую рабочую среду с гораздо большим внешним шумом. То, как они разработали SDK для «подключения» к существующему приложению, делает его немного причудливым. Это одна из тех вещей, где очень просто сделать простые вещи, но, в свою очередь, намного сложнее создать более мощное, элегантное решение. – Dustin

Я работаю с приложениями IVR; в дополнение к Nuance мы в настоящее время оцениваем Microsoft, IBM и Lumenvox.

Приложения для распознавания голоса, включенные на большинстве сотовых телефонов, предназначены для согласования голосового ввода с ранее произнесенной фразой, например, при назначении фразы «Джо» на запись в адресной книге и при наборе номера телефона для записи адресной книги, когда вы говорите "Джо". Более мощные механизмы распознавания речи пытаются расшифровать речевую речь, разбив фразу вниз на phonemes, а затем сопоставляя ее с акустическим репозиторием, чтобы попытаться выяснить, что на самом деле было сказано. Полностью раздутый механизм распознавания речи требует достаточного количества мощности процессора; чтобы сделать что-либо сложное с распознаванием голоса на мобильном устройстве, вам, вероятно, потребуется отправить данные с устройства на сервер для обработки.

источник

2009-12-15 01:14:42

Существует также проект с открытым исходным кодом CMU Sphinx. У них есть вариант под названием PocketSphinx, предназначенный для портативных устройств.

источник

2009-12-16 12:41:00

Системы распознавания голоса для встроенных приложений

ответ

Смежные вопросы