Я читал эту статью (http://www.siefkes.net/papers/mrf-spamfiltering.pdf) уже более нескольких дней, но не смог понять ни одну из формул в разделе 3 или после.Формулы понимания неисправностей, описывающие алгоритм распознавания Маркова
В частности, я не понимаю, что эти части означают:
Р (ш | С (ш) = S) /* Вероятность того, что документ является спамом обусловливающие данного слова в нем быть спамом? */
P (w | C (W) = спам) /* Это та же вероятность, как предыдущее выражение? Почему «спам» вместо «s» или наоборот? */
{Оператор продукта с индексом «кликами С»} ({оператора продукта с индексом с} (ш, спам))
/* В статье, внутреннее выражение называется означать локальная вероятность, но я не понимаю обозначений. Является ли (w, спам) после оператора произведения упорядоченным множеством или функцией? Что это будет функцией? */
Я не понимаю ни одной из формул с биномиальными коэффициентами в них, но для тех, по крайней мере, я думаю, что знаю, что я должен начать читать.
Мне любопытно, в каком контексте вам нужны эти вещи? Вы просто пытаетесь использовать их в реализации или связаны с этими исследованиями? –
Kinda оба. Я делаю считыватель usenet со встроенной фильтрацией спама. У меня есть довольно стандартный фильтр Graham Baynesian, который, кажется, работает хорошо, но я заинтересован в этом марковском подходе из-за его предполагаемого превосходства. – kittykitty