2013-06-15 2 views
0

Я читал эту статью (http://www.siefkes.net/papers/mrf-spamfiltering.pdf) уже более нескольких дней, но не смог понять ни одну из формул в разделе 3 или после.Формулы понимания неисправностей, описывающие алгоритм распознавания Маркова

В частности, я не понимаю, что эти части означают:

Р (ш | С (ш) = S) /* Вероятность того, что документ является спамом обусловливающие данного слова в нем быть спамом? */

P (w | C (W) = спам) /* Это та же вероятность, как предыдущее выражение? Почему «спам» вместо «s» или наоборот? */

{Оператор продукта с индексом «кликами С»} ({оператора продукта с индексом с} (ш, спам))

/* В статье, внутреннее выражение называется означать локальная вероятность, но я не понимаю обозначений. Является ли (w, спам) после оператора произведения упорядоченным множеством или функцией? Что это будет функцией? */

Я не понимаю ни одной из формул с биномиальными коэффициентами в них, но для тех, по крайней мере, я думаю, что знаю, что я должен начать читать.

+0

Мне любопытно, в каком контексте вам нужны эти вещи? Вы просто пытаетесь использовать их в реализации или связаны с этими исследованиями? –

+0

Kinda оба. Я делаю считыватель usenet со встроенной фильтрацией спама. У меня есть довольно стандартный фильтр Graham Baynesian, который, кажется, работает хорошо, но я заинтересован в этом марковском подходе из-за его предполагаемого превосходства. – kittykitty

ответ

1

Что касается первых двух, первый для меня читается так, как будто он должен быть s как переменная для s в S. Вторая говорит только о C (w) = спаме, которые являются случаями, когда s = спам. Вы можете это увидеть, поскольку они используют Z_ {s} и V^{s} в определениях, а Z_ {спам} и C (w) = спам в примерах, поэтому они продемонстрировали это для случая, что C (w) = спам , но определения должны быть общими, то есть охватывать как C (w) = спам, так и C (w) = непсам.

По этому поводу:
{Оператор продукта с индексом «Клик с»} ({оператор продукта с индексом C} (ш, спам))
Определение понятия (ш, спам) не дано в наборе обозначений, но только неофициально в параграфе непосредственно перед этим термином используется как local probability for (w_{i}, w_{j}), given C(w) = s. Боюсь, я не знаю, что такое локальная вероятность, я полагаю, что это имеет какое-то отношение к теории Маркова?

О определениях весовых схем, я действительно понятия не имею.

Смежные вопросы