Существует множество аудиоформатов (например, mp3, m4a), источников (например, диктовка, команды, телефонные звонки, встречи) и устройства (например, телефоны, ПК, устройства IoT). Какие из них лучше всего работают с API облачной речи?Какие типы аудиоподдерживаются API Cloud Speech?
0
A
ответ
-2
API облачной речи можно интегрировать с любым приложением или любым устройством IoT, которое может генерировать запросы REST или gRPC. Он особенно эффективен для выдачи команд, расшифровки диктовки или любых других случаев, когда динамик близок к микрофону, и запись имеет высокое качество (например, цифровая запись 16 кГц).
4
Какие из них лучше всего работают с облачным API-интерфейсом?
Поддерживаемые те будут работать лучше:
- LINEAR16 несжатого 16-разрядное знаковое образцы прямой порядок байтов. Это единственная кодировка, которую может использовать speech.asyncrecognize.
- FLAC Это рекомендуемая кодировка для speech.syncrecognize и StreamingRecognize, поскольку использует сжатие без потерь; поэтому Точность распознавания не скомпрометирована кодеком с потерями.
- 8-разрядные образцы MULAW, которые объединяют 14-битные звуковые сэмплы с использованием G.711 PCMU/му-закона.
- AMR Adaptive Multi-Rate Узкополосный кодек. sampleRate должен быть 8000 Гц.
- AMR_WB Адаптивный многоскоростной широкополосный кодек. sampleRate должен быть 16000 Гц.
https://cloud.google.com/speech/reference/rest/v1beta1/RecognitionConfig#AudioEncoding