1

Я работаю над классификацией счетов-фактур и квитанций, и я буду работать с моделью Bernoulli.Naïve Bayes Классификатор Bernoulli model

Это наивный байесовский классификатор:

P (с | х) = Р (х | с) х Р (с)/Р (х)

Я знаю, как вычислить Р (с), и поскольку мы предполагаем, что все слова независимы, нам не нужно P (x).

Теперь формула будет выглядеть так: P (c | x) = P (x | c) x P (c) и для вычисления P (x | c) мы выполняем метод точности, который вычисляет все вероятности слов P (c | X) = P (x1 | c) P (x2 | c) * P (x3 | c) ....

Мой вопрос заключается в вычислении вероятности, нужно ли умножить его на P (c) или нет, P (c | X) = P (x1 | c) P (x2 | c) * P (x3 | c) ... * P (c)?

ответ

1

P(c|x)не является, равным P(x|c) P(c). Это пропорционально, как и при классификации вы

cl(x) = arg max_c P(c|x) = arg max_c P(x|c) P(c)/P(x) = arg max_c P(x|c) P(c) 

и это справедливо для каждого распределение вероятностей, где P(x)>0, нет необходимости в каких-либо предположения Байеса в этой точке. Это просто простая теорема Байеса + замечание, что P(x) - это просто положительная постоянная в этом уравнении.

Таким образом, вы никогда не на самом деле вычислить P(c|x), вы просто вычислить P(x|c) P(c), который даст вам ту же классификацию. Надеюсь, это показывает, что ваша классификация должна быть на основе продукта P(x|c) и P(c), где, как вы указали, P(x|c) = PROD_i P(x_i|c) (здесь мы используем предположение Наиви Байеса относительно независимости, а не раньше).

Смежные вопросы