2016-04-07 4 views
2

Я нахожусь на своей предыстории question, потому что есть еще одна проблема.Как рассчитать вероятность точки с использованием объекта распределения вероятности?

Я установил в Matlab нормальное распределение к моему вектору данных: PD = fitdist(data,'normal'). Теперь у меня появилась новая точка данных (например, x = 0,5), и я хотел бы рассчитать ее вероятность.

Использование cdf(PD,x) не будет работать, потому что оно дает вероятность того, что точка меньше или равна x (но не точно x). Использование pdf(PD,x) дает только плотность, но не вероятность, и поэтому она может быть больше единицы.

Как рассчитать вероятность?

ответ

1

Допустим, у вас есть случайная величина X, что следует нормальное распределение со средним mu и стандартное отклонение s.

Пусть F - кумулятивная функция распределения для нормального распределения со средним значением mu и стандартное отклонение s. Вероятность случайной величины X находится между a и b, то есть P (a < X < = b) = F (b) - F (a).

В Matlab код:

P_a_b = normcdf(b, mu, s) - normcdf(a, mu, s); 

Примечание: Заметим, что вероятность X является точно равна 0,5 (или какой-либо конкретное значение) равно нулю! Ряд результатов будет иметь положительную вероятность, но недостаточная сумма индивидуальных результатов будет иметь нулевую вероятность.

+0

Большое спасибо, но я изначально хотел, чтобы P (X = a), что означает a = b, что даст F (b) - F (a) = F (a) - F (a) = 0 – machinery

+0

@machinery yes , это верно. И поэтому никто никогда не просит P (X = a) для нормального распределения или большинства других непрерывных распределений (за исключением, возможно, во время тестов или вопросов, связанных с домашним заданием, для проверки понимания). P (X = a) = 0 для любой случайной величины X с непрерывной функцией плотности вероятности. –

+0

Хорошо, но в (гауссовом) наивном классификаторе заливов вы соответствуете нормальному распределению для каждой функции, а затем вам нужно вычислить P (X = a) для новой точки данных, входящей в ... Могу ли я просто использовать значение pdf в таких случай? Конечно, pdf может быть больше одного, но более высокое значение pdf означает более высокую вероятность (плотность). – machinery

4

Если распределение непрерывно, то вероятность любой точки x равна 0, почти по определению непрерывного распределения. Если распределение является дискретным и, кроме того, поддержка распределения является подмножеством множества целых чисел, то для любого целого числа х его вероятности

cdf(PD,x) - cdf(PD,x-1) 

В более общем смысле, для любой случайной величины X, которая принимает на целое число значения, функция f(x) вероятности массы и совокупное распределение F(x) связаны

f(x) = F(x) - F(x-1) 

правая рука может быть истолкованы в качестве дискретной производной, так что это является прямым аналогом того факта, что в непрерывном случае PDF является производной от cdf.

Я не уверен, что у Matlab есть более прямой способ получить функцию вероятности в вашей ситуации, чем проходить через cdf.

В непрерывном случае ваш вопрос не имеет большого смысла, поскольку, как я сказал выше, вероятность равна 0. Ненулевая вероятность в этом случае - это то, что придает интервалам, а не отдельным точкам. Вы все еще можете спросить о вероятности получения значения околоx - но тогда вам нужно решить, что вы подразумеваете под «рядом». Например, если x является целым числом, тогда вам может понадобиться знать вероятность получения значения, которое округляется до x. Это было бы:

cdf(PD, x + 0.5) - cdf(PD, x - 0.5) 
+0

Благодарим вас за ответ. Теория вероятности не моя сила. ;) Распределение в моем случае непрерывное (нормальное распределение). Что означает RHS и PMF? Я думаю, что ваше объяснение касается дискретных распределений, но как я могу адаптировать его для непрерывных распределений? – machinery

+0

@machinery Вы действительно должны прочитать о том, как рассчитать вероятность различных исходов, используя функцию плотности вероятности и/или кумулятивную функцию распределения. С дискретным распределением вы суммируете вероятность различных меньших, компонентных событий, чтобы получить вероятность большего события. (например, вероятность того, что кубик штампа X равен 3 или меньше, является вероятностью P (X = 1) + P (X = 2) + P (X = 3).) Для непрерывного распределения аналог суммирования вероятностной массы функция интегрирует функцию плотности вероятности. Интеграция - это в основном суммирование. –

+0

@MatthewGunn Интеграция функции вероятности densitiy - это именно то, что я думаю о функции PDF Matlab, но это может стать больше, чем та, которая больше не является реальной вероятностью. – machinery

Смежные вопросы