3

Я пытаюсь использовать API облачной речи Google. Там в документации и примеры кода здесь:Какие типы аудиофайлов распознаются API Google Cloud Speech?

https://cloud.google.com/speech/docs/basics 
https://cloud.google.com/speech/docs/rest-tutorial 

я могу получить образец кода, чтобы работать нормально, если я указываю его включаемого файла, audio.raw, но не с кратким .wav файла.

Я понятия не имею, какой формат аудиофайла образец является:

$ file audio.raw 
audio.raw: data 

С моим .wav файл, который имеет, может быть, 10 секунд звука я получаю пустой результат.

Я знаю об этом ответе.

google cloud speech api returning empty result

Мой вопрос был задан раньше, но там не было ответа на этот вопрос.

What types of audio are supported by Cloud Speech API?

Я не могу себе представить, что я должен был бы получить свойство аудиофайла раз, чтобы получить эту работу. Я предполагаю, что обычный случай использования - это то, что кто-то записывает собрание, не имеет представления о параметрах записи и просто хочет текстовый файл.

+0

@Alex Я вижу, что вы ответили на http://stackoverflow.com/questions/39712623/google-cloud-speech-api-returning-empty-result. Любые мысли по моему вопросу? – Sol

+1

Вы не можете сообщать другие виды использования SO (@foo здесь не работает) –

+0

Полезно знать. Благодарю. – Sol

ответ

3

WAV e, похоже, не поддерживается. Эти форматы документируются как поддерживаемые:

  • LINEAR16 Несжатые 16-битные подписанные мало-северные образцы. Это единственная кодировка, которую может использовать speech.asyncrecognize.
  • FLAC Это рекомендуемая кодировка для speech.syncrecognize и StreamingRecognize, поскольку использует сжатие без потерь; поэтому Точность распознавания не скомпрометирована кодеком с потерями. Поддерживаются только 16-разрядные образцы. Не все поля в STREAMINFO поддерживаются
  • MULAW 8-битные сэмплы, которые составляют 14-битные звуковые сэмплы с использованием G.711 PCMU/му-закона.
  • AMR Adaptive Multi-Rate Узкополосный кодек. sampleRate должен быть 8000 Гц.
  • AMR_WB Адаптивный многоскоростной широкополосный кодек. sampleRate должен быть 16000 Гц.

https://cloud.google.com/speech/reference/rest/v1beta1/RecognitionConfig#AudioEncoding

+0

Спасибо. Это заставило меня пройти мимо этой проблемы. Я установил sox и преобразовал WAV-файл в .flac. Теперь у меня возникает другая проблема, которую я буду исследовать и публиковать отдельно. – Sol

+1

как для flac: 'Поддерживаются только 16-разрядные образцы. Не все поля в STREAMINFO поддерживаются. Проверяет документы –

Смежные вопросы