2016-10-07 5 views
2

Я пытаюсь создать приложение, которое решает проблему диарилизации динамиков с помощью API-интерфейсов распознавания когнитивных динамиков Microsoft.Распознавание динамиков в реальном времени с помощью Microsoft Cognitive

Глядя на sample project и читая APIs documentation, я понял, что должно быть сделано признание отправки wav-файла в службу, что противоречит моей цели сделать это в режиме реального времени.

Проведено ли какое-то исследование по этому вопросу? Можно ли использовать эти API, или я должен искать другую дорогу?

ответ

0

Существует не потоковый подход, как Google с Speech API. Для регистрации нового профиля нет необходимости иметь 30 секунд. В моей недавней практике - у меня были успешные результаты в течение ~ 10 секунд. Основная проблема с MS API - это ограничения с несколькими динамиками. Вы должны найти свой собственный способ, как разделить их на отдельные звуковые дорожки. В противном случае он распознает самый первый известный голос.

1

Зачисление требует 30 секунд данных. После того, как у вас есть профиль пользователя, вы можете идентифицировать пользователей с 1-секундной выборки, чтобы вы могли сделать это практически в реальном времени с очень небольшой задержкой. Для этого вам необходимо установить shortAudio parameter. Трудно представить, что идентификация работает быстрее, чем это.

В случае, если вам нужно что-то другое, есть инструментальные средства с открытым исходным кодом, такие как Kaldi, которые могут делать более гибкие вещи.

Смежные вопросы