Посмотрев на бумагу, вам просто нужно вычислить их, используя корпус, то же самое, что и для вашего приложения.
При тиражировании матриц обратите внимание, что они неявно определяют две разные матрицы chars
: вектор и n-на-n матрицу. Для каждого символа x
вектор chars
содержит счетчик числа раз, когда в корпусе произошел символ x
. Для каждой последовательности символов xy
матрица chars
содержит счетчик количества раз, когда эта последовательность произошла в корпусе.
chars[x]
представляет собой поиск x
в векторе; chars[x,y]
представляет собой поиск последовательности xy
в матрице. Обратите внимание, что chars[x]
= сумма по chars[x,y]
для каждого значения y
.
Обратите внимание, что их счеты основаны на корпусе AP Newswire 1988 года (available from the LDC). Если вы не можете использовать свой точный корпус, я не думаю, что было бы необоснованным использовать другой текст из того же жанра (т. Е. Другой корпус нового письма) и масштабировать ваши счета таким образом, чтобы они соответствовали исходным данным. То есть частота данного символа не должна сильно отличаться от одного текста к другому, если они достаточно похожи, поэтому, если у вас есть корпус из 22 миллионов слов в ленте новостей, вы можете считать символы в этом тексте и затем удвоить их, чтобы приблизиться к их исходным подсчетам.
Если это не тот же корпус, то как можно вычислить вероятности? числитель и знаменатель должны быть «совместимыми» - нет? иначе деление могло бы давать очень разные вероятности в зависимости от корпуса для числителя и тела для знаменателя. – necromancer
Если вы используете аналогичный корпус (т. Е. Один из текста в новостном письме) аналогичного размера, вы можете предположить, что символы и последовательности символов происходят примерно с той же частотой, что и в их исходном корпусе. (Я осматриваюсь, чтобы узнать, доступен ли материал Newswire 1988 года для загрузки в любом месте, но в итоге вы также можете пересчитать другие матрицы). – dmh
Похоже, данные 1988 года являются частью корпуса TIPSTER, доступного из НРС: http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC93T3A – dmh