Я разработал доказательство концепции системы для распознавания звука с использованием mfcc и скрытых марковских моделей. Это дает многообещающие результаты, когда я тестирую систему на известных звуках. Несмотря на то, что система, когда вводится неизвестный звук, возвращает результат с ближайшим совпадением, и оценка не отличается от разработанного, это неизвестный звук, например:скрытая марковская модель порога
Я подготовил 3 скрытых марковских модели для речи, один для вода выходит из водопроводного крана и одна для стука на стол. Затем я проверить их на невидимых данных и получить следующие результаты:
input: speech
HMM\knocking: -1213.8911146444477
HMM\speech: -617.8735676792728
HMM\watertap: -1504.4735097322673
So highest score speech which is correct
input: watertap
HMM\knocking: -3715.7246152783955
HMM\speech: -4302.67960438553
HMM\watertap: -1965.6149147201534
So highest score watertap which is correct
input: knocking
HMM\filler -806.7248912250212
HMM\knocking: -756.4428782636676
HMM\speech: -1201.686687761133
HMM\watertap: -3025.181144273698
So highest score knocking which is correct
input: unknown
HMM\knocking: -4369.1702184688975
HMM\speech: -5090.37122832872
HMM\watertap: -7717.501505674925
Здесь входной неизвестный звук, но он по-прежнему возвращает ближайший матч, так как не существует системы фильтрации порогового/мусора.
Я знаю, что в ключевом слове пятно OOV (из словаря) звук может быть отфильтрован с использованием модели мусора или наполнителя, но он говорит, что он обучен с использованием конечного набора неизвестных слов, где это не может быть применено к моему поскольку я не знаю всех звуков, которые система может записывать.
Как подобная проблема решена в системе распознавания речи? И как я могу решить свою проблему, чтобы избежать ложных срабатываний?
Я думаю, что это должно быть перемещено в Cross Validated. – ziggystar
Я согласен, что получилось бы больше (и более квалифицированное) внимание Cross Validated. К сожалению, сигнал летучей мыши (ака «достаточно глазных ящиков с достаточно высокими разрешениями»), кажется, отключен, поэтому Радеку пришлось бы его там положить. («Входящий» не имеет возможности для CV или вручную указывать, где он принадлежит. Meh.) – Godeke