Search
Duplicate

수학/ 확률, 확률 함수, PMF, CDF, PDF, Quantiles

확률

확률(probability)은 알려진 파라미터 θ\boldsymbol{\theta}가 주어졌을 때 관찰된 데이터 출력 D\mathcal{D}에 대해 p(Dθ)p(\mathcal{D}|\boldsymbol{\theta})를 계산하여 분포를 모델링하는 것과 관련있다.
대조적으로 통계(statistics)는 주어진 관찰에 대해 알려지지 않은 파라미터 θ\boldsymbol{\theta}를 추론하는 inverse 문제와 관련되어 있다. 즉 p(θD)p(\boldsymbol{\theta}|\mathcal{D})를 추론하는 것이다. 실제로 통계는 원래 inverse probability theory라고 불렀었다.

확률 함수

사건 AA가 일어날 확률을 다음과 같이 정의한다. 여기서 ss는 scalar이다.
Pr(A)s (0s1)Pr(A) \triangleq s \ (0 \leq s \leq 1)
사건 AA가 일어나지 않을 확률은 다음과 같이 정의한다.
Pr(A)1Pr(A)Pr(\overline{A}) \triangleq 1 - Pr(A)
사건 AABB가 동시에 일어날 확률(결합 확률)은 다음과 같이 정의한다.
Pr(AB)Pr(A,B)=Pr(A)×Pr(BA)=Pr(B)×Pr(AB)Pr(A \wedge B) \triangleq Pr(A, B) = Pr(A) \times Pr(B|A) = Pr(B) \times Pr(A|B)
만일 사건 AABB가 독립이라면 다음과 같다.
Pr(A,B)=Pr(A)Pr(B)Pr(A,B) = Pr(A)Pr(B)
사건 AABB가 일어날 확률은 다음과 같다.
Pr(AB)=Pr(A)+Pr(B)Pr(AB)Pr(A \vee B) = Pr(A) + Pr(B) - Pr(A \wedge B)
만일 사건 AABB가 독립이라면 다음과 같다.
Pr(AB)=Pr(A)+Pr(B)Pr(A \vee B) = Pr(A) + Pr(B)

확률 질량 함수(PMF)

이산 확률 변수 XX에 대해, X=xX=x인 사건의 확률을 Pr(X=x)Pr(X=x)로 표시하고 이를 다음과 같은 함수로 정의한다. 이를 확률 질량 함수(Probability Mass Function, PMF)라고 한다.
p(x)Pr(X=x)p(x) \triangleq Pr(X = x)
이때 0p(x)10 \leq p(x) \leq 1이고 xXp(x)=1\sum_{x \in X} p(x) = 1이다.

누적 분포 함수(CDF)

확률 변수 XX가 연속이면 X=xX = x를 정의하는 것이 무의미 하므로, XxX \leq x와 같이 구간을 잡아서 처리한다.
이산이면 1/N1 / N과 같이 확률로서 유의미한 확률 값이 나오지만, 연속이면 분모가 \infty이므로 0이 나와서 의미가 없다
이렇게 나타낸 확률을 Pr(Xx)Pr(X \leq x)로 표시하고 다음과 같은 함수로 정의한다. 이를 누적 분포 함수(Cumulative Distribute Function, CDF)라고 한다.
확률 질량 함수와 구분하기 위해 대문자로 표기.
P(x)Pr(Xx)P(x) \triangleq Pr(X \leq x)

확률 밀도 함수(PDF)

누적 분포 함수에 대해 도함수를 취하면, 확률 질량 함수와 같이 연속 확률에 대해 확률을 정의할 수 있다. 누적 분포 함수의 도함수는 다음과 같이 정의하고, 이를 확률 밀도 함수(Probability Density Function, PDF)라고 한다.
도함수이기 때문에 소문자 형태로 표기. 이렇게 됨으로써 확률 질량 함수랑 표기가 같아졌다.
p(x)ddxP(x)p(x) \triangleq {d \over dx} P(x)
이렇게 정의된 확률 밀도 함수는 다음과 같이 구간 a,b (a<b)a, b \ (a < b)에 의해 구할 수 있다.
Pr(a<Xb)=abp(x)dx=P(b)P(a)Pr(a < X \leq b) = \int_a^b p(x) dx = P(b) - P(a)
위의 식을 이용하여 다음과 같이 dxdx를 이용하면 xx에 대한 값을 근사화 할 수 있다.
Pr(x<Xx+dx)p(x)dxPr(x < X \leq x + dx) \approx p(x) dx

분위수 함수(Quantiles)

누적 분포 함수 CDF가 순단조증가하는 경우 역함수를 정의할 수 있는데, 이를 분위수(Quantiles)라고 한다.
PPXX의 CDF라 할 때 P1(q)P^{-1}(q)는 다음 식을 만족하는 xqx_q가 된다. 이것을 PPqq번째 분위수라고 한다.
Pr(Xxq)=qPr(X \leq x_q) = q
직관적인 설명으로 만일 4분위수를 구한다고 하면 분포를 1/4로 나누는 것이므로, q=[0.25,0.5,0.75]q = [0.25, 0.5, 0.75]가 되고 CDF에서 0.25,0.5,0.750.25, 0.5, 0.75를 만족시키는 xqx_q를 찾게 된다.

참고