2016-01-31 3 views
-1

Я создаю текстовый классификатор для классификации отзывов как положительных или отрицательных. У меня есть запрос на NaiveBayes классификаторов формуле:Запрос о NaiveBayes Классификатор

|      P(label) * P(f1|label) * ... * P(fn|label) 
| P(label|features) = -------------------------------------------- 
|           P(features) 

Согласно моему пониманию, вероятности умножаются, если события происходят одновременно. Например. какова вероятность того, что А и В встречаются вместе. Уместно ли умножать вероятности в этом случае? Цените, если кто-нибудь может объяснить эту формулу в деталях. Я пытаюсь сделать ручную классификацию (просто чтобы проверить некоторые алгоритмы, сгенерированные классификациями, которые кажутся незначительными, это позволит мне определить точную причину ошибочной классификации).

В базовых вероятностных выражениях для вычисления p (метка | feature1, feature2) мы должны умножить вероятностные числа для вычисления появления признаков 1 и функции 2 вместе. Но в этом случае я не пытаюсь рассчитать стандартную вероятность, а силу положительности/негативности текста. Поэтому, если подытожить вероятности, я получаю число, которое может идентифицировать фактор положительности/отрицательности. Это немного необычно, но как вы думаете, это может дать хорошие результаты. Причина в том, что сумма и продукт могут быть совершенно разными. Например. 2 * 2 = 4, но 3 * 1 = 3

ответ

0

Условные вероятности P (признак | метка) можно умножить вместе, если они статистически независимо. Однако на практике было обнаружено, что Naive Bayes все еще дает хорошие результаты даже для условно-условных вероятностей, которые не являются независимыми. Таким образом, вы можете вычислить отдельные условно-условные вероятности P (feature | label) из простого подсчета и затем умножить их вместе.

Следует отметить, что в некоторых приложениях эти вероятности могут быть чрезвычайно малыми, что приводит к потенциальному уменьшению числа элементов. Таким образом, вы можете захотеть добавить вместе журналы вероятностей (а не умножать вероятности).

+0

В базовых вероятностных выражениях для вычисления p (label | feature1, feature2) мы должны умножить вероятностные числа для вычисления вероятности появления признака 1 и функцию 2 вместе. Но в этом случае я не пытаюсь рассчитать стандартную вероятность, а силу положительности/негативности текста. Поэтому, если подытожить вероятности, я получаю число, которое может идентифицировать фактор положительности/отрицательности. Это немного необычно, но как вы думаете, это может дать хорошие результаты. Причина в том, что сумма и продукт могут быть совершенно разными. Например. 2 * 2 = 4, но 3 * 1 = 3 –

+0

@AmitAgarwal: Я не думаю, что это правильный подход. Пожалуйста, проголосуйте за мой ответ, если вы сочтете это полезным. – stackoverflowuser2010

+0

@ stackoverflowuser2010, см. Мой ответ выше. Не мог вписаться в комментарии. –

0

Я понимаю, что функции были разными, как то, что вероятность того, что человек будет мужчиной, если высота 170 см и вес 200 фунтов. Затем эти вероятности должны быть умножены вместе, поскольку эти условия (события) происходят вместе. Но в случае классификации текста это недействительно, так как на самом деле не имеет значения, происходят ли события вместе. вероятность того, что обзор будет положительным, учитывая появление наилучшего слова, - 0,1, а вероятность того, что обзор будет положительным, учитывая появление слова вежливость, составляет 0,05, то вероятность обзора будет положительной с учетом появления обоих слов (лучших и вежливых) не составляет 0,1 * 0,05. Более показательным числом будет сумма вероятностей (необходимо нормализовать),

Смежные вопросы