4

This paper содержит матрицы смешения для орфографических ошибок в шумном канале. В нем описывается, как исправить ошибки на основе условных свойств.Как вычислить вероятности из матриц путаницы? Необходимый знаменатель, матрицы символов

Расчет условной вероятности на странице 2, левая колонка. В примечании 4, стр. 2, в левой колонке, авторы говорят: «Матрицы символов могут быть легко воспроизведены и поэтому опущены из приложения». Я не могу понять, как они могут быть воспроизведены!

Как их реплицировать? Нужен ли мне оригинальный корпус? или, могли ли авторы пересчитать из материала в самой статье?

ответ

2

Посмотрев на бумагу, вам просто нужно вычислить их, используя корпус, то же самое, что и для вашего приложения.

При тиражировании матриц обратите внимание, что они неявно определяют две разные матрицы chars: вектор и n-на-n матрицу. Для каждого символа x вектор chars содержит счетчик числа раз, когда в корпусе произошел символ x. Для каждой последовательности символов xy матрица chars содержит счетчик количества раз, когда эта последовательность произошла в корпусе.

chars[x] представляет собой поиск x в векторе; chars[x,y] представляет собой поиск последовательности xy в матрице. Обратите внимание, что chars[x] = сумма по chars[x,y] для каждого значения y.

Обратите внимание, что их счеты основаны на корпусе AP Newswire 1988 года (available from the LDC). Если вы не можете использовать свой точный корпус, я не думаю, что было бы необоснованным использовать другой текст из того же жанра (т. Е. Другой корпус нового письма) и масштабировать ваши счета таким образом, чтобы они соответствовали исходным данным. То есть частота данного символа не должна сильно отличаться от одного текста к другому, если они достаточно похожи, поэтому, если у вас есть корпус из 22 миллионов слов в ленте новостей, вы можете считать символы в этом тексте и затем удвоить их, чтобы приблизиться к их исходным подсчетам.

+0

Если это не тот же корпус, то как можно вычислить вероятности? числитель и знаменатель должны быть «совместимыми» - нет? иначе деление могло бы давать очень разные вероятности в зависимости от корпуса для числителя и тела для знаменателя. – necromancer

+0

Если вы используете аналогичный корпус (т. Е. Один из текста в новостном письме) аналогичного размера, вы можете предположить, что символы и последовательности символов происходят примерно с той же частотой, что и в их исходном корпусе. (Я осматриваюсь, чтобы узнать, доступен ли материал Newswire 1988 года для загрузки в любом месте, но в итоге вы также можете пересчитать другие матрицы). – dmh

+0

Похоже, данные 1988 года являются частью корпуса TIPSTER, доступного из НРС: http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC93T3A – dmh

Смежные вопросы