0

Я работаю над приложением для людей, застрявших в лишних встречах, которые должны знать, когда кто-то задает им вопрос.Как я могу транслировать транскрипцию на OS X (без аудиофайлов)?

Мой план:

  1. поток аудио собрания (что обычно выходит из моих колонок) в программе речи в текст
  2. поток, который в то, что часы на мое имя и/или повышение интонации для вопросов
  3. Имейте программу «ding», когда кто-то задает мне вопрос. Затем я могу быстро прочитать текст и ответить.

Твердая часть - это этап (1). Все предлагаемые программы «речь-текст», которые я нашел, принимают аудиофайлы в качестве входных данных и не могут просто передавать с любого канала на динамики/наушники. С другой стороны, вспомогательные программы, которые я нашел, используют клавиатуру. В идеале пользователи смогут выполнять продуктивную работу, набирая другие приложения во время собрания, поэтому такое решение не будет работать.

Так что я искал что-то я могу использовать на OS X, которая будет либо обрабатывать шаг (1) или еще лучше сделать большинство из вышеперечисленных для меня шагов.

Я провел исследование решений и ничего не нашел для шага (1). Я включаю другие шаги, потому что может быть более творческое решение для общей программы (например, некоторые другие вспомогательные технологии, а не диктовки), о которых я не знаю.

ответ

1

Вы можете использовать многие API, например streaming API from Google, но это не совсем бесплатно.

Если вы допускаете более низкую точность, вы можете использовать программное обеспечение с открытым исходным кодом, например CMUSphinx.

Проблема также в том, как получить аудиопоток из программного обеспечения voip, вы должны сами его взломать. Или вам нужно переписать то, что воспроизводится на динамиках, это не всегда хорошая идея.

1

1) Я использовал LoopBack для маршрутизации аудио между приложениями, в основном виртуальный микшер, который передает аудио из 1 приложения в другое. Он отображается как устройство ввода аудио, а также позволяет контролировать - так что вы можете слушать, а также поток в другое приложение.

2 и 3) На самом деле это не моя область знаний, но я бы, вероятно, исследовал любой API Google (как сказал Николай), чтобы начать мои исследования.

Смежные вопросы