У меня есть небольшое количество подобных типов звуков (я буду называть их DB_sounds), к которому я должен соответствовать записи (Rec_sounds). Каждый Rec_sound является коротким и уникальным и должен соответствовать соответствующему DB_sound. Как мне совместить их?категоризации короткие образцы аудио
Чтобы проиллюстрировать мою проблему, необходимо учитывать следующее:
Боба, с глубоким голосом в комнате (с некоторым фоновым шумом) говорит Ма
Алиса, с высоким голосом в комнате B говорит Eh
Ребенок учится говорить. Его первое слово: Eh
Ma и Eh - это два разных типа DB_sounds, поэтому я должен вернуть 2 разных результата. У меня есть несколько образцов DB_sound разных людей, говоря Ма и Eh сравнить Rec_sounds с
звуков, которые я имею дело с являются голосовыми записями отдельных слогов, как ла, ба, п, а, ма и т. д.
Как я должен справиться с этим?
Я не думаю, что звуковая отпечатка пальца будет работать (см. Спектрограмму), а существующее программное обеспечение для распознавания голоса, например this google api integration in python, не работает, так как я не пытаюсь распознать человеческий язык, но просто звучит.
Я не возражаю против создания чего-то с нуля, просто укажите мне направление, которое, по вашему мнению, будет работать, и, пожалуйста, добавьте много оснований для того, почему вы так думаете.
спектрограммы из 8 образцов ребенка говоря EH
графики временной области из 8 образцов ребенка говорят EH
В итоге я сделал что-то похожее – Roman