2010-04-15 7 views
4

У меня есть буфер звука, и я хотел бы выполнить распознавание речи/транскрипцию на нем. У меня ограниченный процессор и оперативная память локально, поэтому я хочу выполнить распознавание на сервере.Услуги распознавания речи (в Интернете)?

Есть ли какие-либо (сетевые) услуги, которые позволяют мне это делать?

Мои поиски до сих пор не привели в никуда ...

+0

Я нашел Spinvox Создать тоже ... –

ответ

1

Lumenvox предлагает такую ​​услугу, но, кажется дорогим для ваших нужд.

+0

Это хорошая находка, хотя их программисту документация отсутствует. Похоже, что «сначала купите, поймите позже». Я также нашел Spinvox Create, для которого доступны документы - но это ужасная группа веб-API cruft, требующая настраиваемых заголовков, аутентификация дайджеста, многостраничные сообщения, содержащие XML и 64-кодированный звук в формате, который не является возмутительным, но не простым конвертированный с моего устройства ... –

2

Google только что представил браузерный доступ к его речевому движку через HTML5.

http://slides.html5rocks.com/#speech-input

Чтобы получить эту страницу, чтобы работать, я начал Chromium браузер следующим образом в Ubuntu:

$ chromium-browser --enable-speech-input 

Я считаю, что идея заключается в том, чтобы иметь возможность создавать приложения, которые используют распознавания речи от Google , но у меня не было возможности глубоко заглянуть в нее.

Еще один интересный проект WAMI из MIT: http://wami.csail.mit.edu

+2

И ... поскольку Chromium - OSS, я просто потратил некоторое время и обнаружил, что да, действительно, есть конечная точка службы RESTful, с которой она ведет переговоры. Не должно быть слишком сложно создать отдельную библиотеку для вызова распознавания ... –

+0

Дэйв, ты когда-нибудь работал над этим? –

+0

Я не работал над этим, хотя для реализации API в Python/Ruby/etc это должно быть довольно просто, что делает Chromium ... при условии, что вы можете найти API-интерфейс Speex для выбранного вами языка. –

Смежные вопросы