2016-07-11 3 views
0

Есть ли способ обнаружить только в реальном времени, если говорят несколько человек? Нужно ли для этого распознавание голоса api?Обнаружение нескольких голосов без распознавания речи

Я не хочу отделять аудио, и я не хочу его расшифровывать. Моим подходом было бы часто записывать с использованием одного микрофона (-> моно), а затем анализировать эти записи. Но как тогда я обнаруживаю и выделяю голоса? Я бы сузил его, глядя только на соответствующие частоты, но затем ...

Я действительно понимаю, что это не мелочи. Вот почему я надеюсь, что есть api, способный сделать это из коробки - предпочтительно мобильный/веб-интерфейс api.

Теперь это может показаться списком покупок на Рождество, но, как уже упоминалось, мне не нужно ничего знать о содержании. Поэтому я предполагаю, что полноценное распознавание речи будет иметь большое значение для производительности.

ответ

1

Большинство подобных проблем (классификатор для взрослых/детей, классификатор речи/музыки, один голос/голос смесителя) являются стандартными проблемами машинного обучения. Вы можете решить их с помощью классификатора типа GMM. Вам нужно только построить обучающие данные для вашей задачи, так:

  1. Возьми некоторое количество чистых записей, вы можете скачать аудиокниги
  2. Подготовки смешанных данных путем смешивания бесконечно убирать записи
  3. Поезда GMM классификатора как на
  4. Сравните вероятности с чистой речевой GMM и смешанной речевой GMM и определите наличие смеси по соотношению вероятностей от двух классификаторов.

Вы можете найти некоторые примеры кода здесь:

https://github.com/littleowen/Conceptor

Например, вы можете попробовать

https://github.com/littleowen/Conceptor/blob/master/Gender.ipynb

+0

Спасибо, это выглядит очень хорошо. Я думаю, что понимаю эту идею и пытаюсь ее запустить. В идеале программе понадобится классификатор GMM поезда на настоящие голоса при запуске. Я еще не использовал python, но я попробую. –

Смежные вопросы