1

Я построил языковую модель для языка tamil, используя данные из дамп wikipedia, используя инструмент CMUCLMTK.Now, как мне сгенерировать phoenetic transcription и заменить их в модели. В статье wiki (http://cmusphinx.sourceforge.net/wiki/phonemerecognition) говорится вместо замены транскрипции слов. Что я должен делать сейчас?Как построить языковую модель из фонетической транскрипции?

ответ

1

Вы можете написать скрипт python для замены символа своей фонемой. На английском языке есть около 44 фонем, вы можете просто создать словарь, который отображает персонаж на его фонему. И чтобы преобразовать вашу транскрипцию в фонемы, просто сложите каждое слово на символы и замените его фонемой, сопоставляя символ с вашим словарем. Вы можете сделать это более интересным, используя временную частоту или tf-idf

Смежные вопросы