2012-06-28 4 views
4

Я устанавливаю Pocketsphinx0.7 на VM, на котором работает Debian Squeeze. Это сработало хорошо, и я могу попытаться распознать речь из файлов. Имея это, я создал некоторые скрипты python, которые распознают кучу файлов, которые я получил, а затем оцениваю коэффициент ошибок в словах. Они используют gstreamer, как описано в this tutorial.Правильная настройка Pocketsphinx

До сих пор я использую оригинальный хмм, который был в tarball-файле pocketsphinx, словарь, который просто содержит слова из моих тестовых данных и оптимизированную модель языка, полученную от моего профессора. Это должно работать так же, как и в производственной системе. Моя проблема в том, что производительность распознавания все еще ужасна. У меня ошибка с ошибкой слов (WER) около 85%.

Что я хочу знать, так это то, как я могу улучшить WER. Какие шаги я могу предпринять?

Другая вещь, которая случается и, вероятно, влияет на производительность, заключается в том, что pocketsphinx говорит мне, что у нее нет разрешения на доступ к hmm, хотя я сделал хмм доступным для чтения, записи и исполнения для всех.

У кого-нибудь есть идея, откуда это может произойти? Я ценю любую помощь. Если вам нужна дополнительная информация, пожалуйста, дайте мне знать.


EDIT:

Я создал небольшой testset и побежал pocketsphinx. This is where you can find the files and the results. Мне разрешили дать вам несколько примеров из оригинального тестового набора. Вы can find it here.
Это худшие примеры. Короткие высказывания из 1-2 слов работают хорошо. Извините, я не мог создать большой набор тестов до сих пор, мое время очень ограничено.

ответ

2

Что я хочу знать, так это то, как я могу улучшить WER. Какие шаги я могу предпринять?

Эта проблема описана в Pocketsphinx FAQ:

http://cmusphinx.sourceforge.net/wiki/faq#qwhy_my_accuracy_is_poor

Первым шагом является сбор базы данных тестовых образцов

Если вам нужна помощь, чтобы повысить точность, необходимо поделиться этой базой данных и результатами, которые вы ищете, и фактическими результатами. Вы можете поделиться здесь или на форуме Sourceforge. Вам нужно упаковать все файлы в архив, где-то загружать. Тогда вы можете указать здесь ссылку.

Для получения дополнительной информации см

http://cmusphinx.sourceforge.net/wiki/communicate

+0

Я видел CMU Sphinx FAQ уже моя проблема заключается в том, что я должен быть неправильно настроенное pocketsphinx дало бедный accuracy.Looking на моих результатах, я думаю, что языковая модель игнорируется , Поскольку все работает над плагином gstreamer, оно не покрывается на странице (по крайней мере, я его не нашел). Из-за юридических проблем я не могу поделиться образцами, но только гипотезы и транскрипции. Я отредактирую его в свой пост. Спасибо за ваш ответ – elramino

+0

Я проверил еще раз, и я даже не могу поделиться выводами. Я приведу бесплатные примеры и опубликую результаты здесь как можно скорее. – elramino

+0

Учитывая данные, которыми вы делились сейчас, кажется, что используемая вами модель языка не совсем корректна.Если вы говорите, что короткие слова работают, то, скорее всего, языковая модель обучается распознавать короткие слова в первую очередь. При использовании модели pocketsphinx по умолчанию, которую вы разделили, коэффициент ошибок составляет 64%, а не 85%. Хорошая языковая модель может составлять 40%. Я также вижу, что вы записали британский английский, а не американский английский. При адаптации акустической модели от американской модели английского языка до английского английского языка вы можете снизить частоту ошибок до 20% или даже меньше. –

Смежные вопросы