Суть проблемы заключается в том, что IBM Watson Speech to Text позволяет загружать и использовать только форматы файлов FLAC, WAV и OGG с API.Речь IBM Watson о преобразовании текста в текст на веб-приложении Node.js
Мое решение состоит в том, что если пользователь загрузит mp3, ПЕРЕД отправкой файла в Уотсон произойдет преобразование данных. По сути, пользователь загружает mp3, а затем используя ffmpeg или sox, звук будет преобразован в OGG, после чего звук будет загружен в Watson.
О чем я не уверен: что именно мне нужно изменить в коде Node.js Watson, чтобы разрешить преобразование звука? Ниже приведен репозиторий Watson, с которым я работаю. Я уверен, что файл, который должен быть изменен, - fileupload.js, с которым я связался, но где изменения идут, о чем я не уверен?
Я просмотрел как SO, так и developerWorks, IBM SO для ответов на эту проблему, но я не видел никаких причин, почему я размещаю здесь. Я был бы рад прояснить мой вопрос, если это необходимо.
Последующие вопросы к этому, я в настоящее время с помощью FFmpeg для преобразования файлов. Но эта библиотека преобразования аудио загружает весь аудиофайл в память, а не делает это в кусках. Что было бы хорошим решением для этой проблемы? – YAL