категоризации короткие образцы аудио

У меня есть небольшое количество подобных типов звуков (я буду называть их DB_sounds), к которому я должен соответствовать записи (Rec_sounds). Каждый Rec_sound является коротким и уникальным и должен соответствовать соответствующему DB_sound. Как мне совместить их?категоризации короткие образцы аудио

Чтобы проиллюстрировать мою проблему, необходимо учитывать следующее:
Боба, с глубоким голосом в комнате (с некоторым фоновым шумом) говорит Ма
Алиса, с высоким голосом в комнате B говорит Eh
Ребенок учится говорить. Его первое слово: Eh

Ma и Eh - это два разных типа DB_sounds, поэтому я должен вернуть 2 разных результата. У меня есть несколько образцов DB_sound разных людей, говоря Ма и Eh сравнить Rec_sounds с

звуков, которые я имею дело с являются голосовыми записями отдельных слогов, как ла, ба, п, а, ма и т. д.

Как я должен справиться с этим?
Я не думаю, что звуковая отпечатка пальца будет работать (см. Спектрограмму), а существующее программное обеспечение для распознавания голоса, например this google api integration in python, не работает, так как я не пытаюсь распознать человеческий язык, но просто звучит.

Я не возражаю против создания чего-то с нуля, просто укажите мне направление, которое, по вашему мнению, будет работать, и, пожалуйста, добавьте много оснований для того, почему вы так думаете.

спектрограммы из 8 образцов ребенка говоря EH enter image description here

графики временной области из 8 образцов ребенка говорят EH enter image description here

источник

2015-06-04 Roman

Если вы просто хотите, чтобы признать звуков, я бы начал с простой процедуры:

Обрезание тишины из каждого образца звука (простая энергия).
Вычислить аудиофункции для каждого образца вашей базы данных (например, MFCCs).
Выполните процедуру проверки с перекрестной проверкой, чтобы сопоставить звуковые функции с категорией звука, которую вы хотите распознать.

Полезного Python Libs: scipy для чтения файлов WAV, essentia для аудио извлечения признаков, scikit-learn для классификации и другого машинного обучения.

источник

2015-11-11 16:05:50

В итоге я сделал что-то похожее – Roman

категоризации короткие образцы аудио

ответ

Смежные вопросы