Я пытаюсь синхронизировать текст в приложении iOS с аудио, которое транслируется одновременно. Текст - очень точная транскрипция аудио, которая была сделана вручную вручную. Можно ли использовать ключевое слово spotting или audio для текста, чтобы помочь с этим?Синхронизация звука с точной транскрипцией на iOS
Текст уже проиндексирован в приложении с помощью поисковой системы clucene, поэтому будет легко найти любую строку текста/слов в любом абзаце в тексте. Даже если преобразование аудио в текст не является на 100% точным, поисковая система должна иметь возможность обрабатывать его и по-прежнему находить наилучшее соответствие текста в рамках пары попыток.
Не могли бы вы указать мне на какие-либо библиотеки с открытым исходным кодом для преобразования текста в текст, что поможет с этим? Я бы предпочел, чтобы конвертировать потоковое аудио в текст напрямую и не полагаться на микрофоны, как это принято в речевых текстовых библиотеках, поскольку могут быть случаи, когда пользователи могут использовать наушники с приложением и/или их могут быть фоновым шумом.
Не знаете, почему вы хотите сделать синхронизацию на iOS точно. Если вы приносите текст, созданный вручную, извне, почему бы вам не отложить его за пределами и принести текст с отметками времени? Есть довольно несколько решений для временной метки. –
Не только текстовая синхронизация, но и пользователь может пропустить аудиофайл в любую точку, и мне понравится возможность найти точку, в которой достигнут звук. Я не хочу отметки времени, потому что более 600 документов на 90+ страниц (pdf). Передает 600 аудиофайлов, каждый из которых длится 4 часа. Есть ли способ автоматически маркировать все эти данные? – dsgrant07