Существует ограничение по времени для длины каждого аудиопотока - это ограничение на серверах Google, и, как представляется, около 60 секунд, хотя это не документировано.
Предел имеет смысл - вы не можете ожидать, что Google обработает часы аудио, поскольку эта модель никогда не будет масштабироваться. Вы должны относиться к сервису таким же образом, как и Siri, - инициировать сеанс распознавания, подавать короткий поток звука, обрабатывать эти результаты, инициировать новый сеанс.
К сожалению, поскольку работа по распознаванию речи в Интернете все еще находится в активной разработке, все еще очень актуально, и документация ограничена. Я рекомендую копаться в списках рассылки браузера Chrome и размещать конкретные вопросы. Я нашел, что люди, работающие над этим в Google, очень отзывчивы к конкретным вопросам.
Для минимального демо распознавания речи и некоторые мысли о проблемах с текущей речи API, которые Вы хотели бы посмотреть на этот Tutorial on Web Speech Recognition
У меня есть непрерывный звук, по крайней мере, 15 минут или больше. Как я могу разбить его на короткие потоки, чтобы отправить его в Google Speech API? –