수학/ 확률 공간, 확률 공리

확률 공간(Probability space)

이산 확률 변수

연속 확률 변수

확률 공리(Probability Aximoms)

Conditional probability

Bayes’ rule

참조

확률 공간(Probability space)

•

확률 공간을 triple (Ω,F,P)(\Omega, \mathcal{F}, \mathbb{P})(Ω,F,P)로 정의한다. 

◦

여기서 Ω\OmegaΩ는 표본 공간(sample space)라고 하며, 실험으로부터 가능한 결과의 집합을 의미하고,

◦

F\mathcal{F}F는 사건 공간(event space)라고 하며,  Ω\OmegaΩ의 가능한 모든 부분집합의 집합을 의미하고, 

◦

P\mathbb{P}P는 확률 측정(probability measure)라고 하며, 사건 E⊆ΩE \subseteq \OmegaE⊆Ω을 숫자 [0,1][0,1][0,1]로 매핑하는 것을 의미한다. (즉 P:F→[0,1]\mathbb{P} : \mathcal{F} \to [0,1]P:F→[0,1]) 

이산 확률 변수

•

‘A’,’B’,’C’ 3개 면을 가진 주사위가 있다고 하자. 이 주사위의 표본 공간은 아래와 같고 모든 가능한 ‘실험’ 결과를 표현한다.

\Omega = \{A,B,C\}

•

사건 공간은 표본 공간의 부분 집합이므로 아래와 같다.

\mathcal{F} = \{\empty, \{A\}, \{B\}, \{C\}, \{A,B\},\{A,C\},\{B,C\},\{A,B,C\}\}

•

사건은 사건 공간의 요소이다. 

◦

예컨대 E1={A,B}E_1 = \{A,B\}E1​={A,B}은 주사위의 면이 AAA나 BBB가 나타나는 결과를 표현하고 E2={C}E_2 = \{C\}E2​={C}는 주사위 면이 CCC가 나타나는 것을 표현한다.

•

확률 측정은 사건 공간에서 각 집합의 ‘크기’나 ‘가중치’를 계산하는 방법으로 정의할 수 있다. 예컨대 위 주사위에 대해 원자적 사건의 확률을 아래와 같이 정의한다고 하자.

\mathbb{P}[\{A\}] = {2\over6}, \ \mathbb{P}[\{B\}] = {1\over6}, \ \mathbb{P}[\{C\}] = {3\over6}

•

그러면 다른 사건의 확률에 대한 측정을 위의 확률을 이용해서 유도할 수 있다.

◦

예컨대 P[{A,B}]=26+16=12\mathbb{P}[\{A,B\}] = {2\over6} + {1\over6} = {1\over2}P[{A,B}]=62​+61​=21​

•

사건 공간에서 가능한 결과에 할당되는 숫자를 확률 변수(random variable)로 정의할 수 있다. 여기서 함수 X:Ω→RX : \Omega \to \mathbb{R}X:Ω→R은 결과 ω∈Ω\omega \in \Omegaω∈Ω를 실수선 위의 숫자 X(ω)X(\omega)X(ω)에 매핑한다. 

◦

예컨대 3면 주사위에 대한 확률 변수 XXX를 다음과 같이 정의할 수 있다

X(A) = 1\\ X(B) = 2\\ X(C) = 3

•

공정한 동전을 2번 던지는 실험을 가정하자. HHH를 동전의 앞면, TTT를 동전의 뒷면이라 하면 표본 공간은 다음과 같이 정의할 수 있다.

\Omega = \{\omega_1 = (H,H), \omega_2 = (H,T), \omega_3 = (T,H), \omega_4 = (T,T)\}

•

이때 XXX를 앞면의 수를 나타내는 확률 변수라 하면 다음과 같이 정의된다. 

X(\omega_1) = 2\\ X(\omega_2) = 1\\ X(\omega_3) = 1\\ X(\omega_4) = 0

•

확률변수의 가능한 값들의 집합을 상태 공간(state space)로 정의하고 X(Ω)=XX(\Omega) = \mathcal{X}X(Ω)=X로 표기한다. 다음과 같이 모든 주어진 상태의 확률을 정의할 수 있다.

p_X(a) = \mathbb{P}[X=a] = \mathbb{P}[X^{-1}(a)]

•

여기서 X−1(a)={ω∈Ω∣X(ω)=a}X^{-1}(a) = \{\omega \in \Omega|X(\omega) = a\}X−1(a)={ω∈Ω∣X(ω)=a}는 aaa의 역상(pre-image)이다. 

•

pXp_XpX​는 확률 변수 XXX에 대한 확률 질량 함수(probability mass function, pmf)라 부른다. 동전을 2번 뒤집는 예에서 pmf는 다음과 같다.

\begin{aligned} p_X(0) &= \mathbb{P}[\{(T,T)\}] = {1\over4}\\p_X(1) &= \mathbb{P}[\{(T,H),(H,T)\}] = {2\over4}\\p_X(2) &= \mathbb{P}[\{(H,H)\}] = {1\over4} \end{aligned}

•

pmf는 histogram이나 어떤 parametric 함수로 표현할 수 있다. 

•

pXp_XpX​를 확률 변수 XXX에 대한 확률 분포(probability distribution)이라 부른다. 문맥상 분명한 경우 종종 pXp_XpX​에서 XXX 첨자를 제거한다.

연속 확률 변수

•

연속 결과의 실험의 경우 표본 공간은 실수의 부분 집합 Ω⊆R\Omega \subseteq \mathbb{R}Ω⊆R이라 가정하고, 각 연속 확률 변수를 항등 함수(identify function) X(ω)=ωX(\omega) = \omegaX(ω)=ω로 정의한다.

•

예컨대 어떤 사건(초에서)의 duration을 측정하는 것을 고려하자. 샘플 공간을 다음과 같이 정의할 수 있다.

\Omega = \{t:0\le t \le T_{\max}\}

•

이것은 uncountable set으로 이산일 때와 달리 모든 가능한 부분집합을 열거하여 정의할 수 없다. 대신 이벤트 공간을 Borel sigma-field (또는 Borel sigma-algebra 라고 불리는)의 측면에서 정의해야 한다. 

◦

F\mathcal{F}F가 다음을 만족하면 σ\sigmaσ-field라고 한다. 

∅∈F\empty \in \mathcal{F}∅∈F이고 Ω∈F\Omega \in \mathcal{F}Ω∈F 

F\mathcal{F}F가 여집합에 대해 닫혀 있다. 따라서 E∈FE \in \mathcal{F}E∈F라면 Ec∈FE^c \in \mathcal{F}Ec∈F 

F\mathcal{F}F는 가산 합집합과 교집합에 닫혀 있다. 즉 ∪i=1∞Ei∈F\cup_{i=1}^{\infty} E_i \in \mathcal{F}∪i=1∞​Ei​∈F이고 ∩i=1∞Ei∈F\cap_{i=1}^{\infty} E_i \in \mathcal{F}∩i=1∞​Ei​∈F는 E1,E2,...∈FE_1,E_2,... \in \mathcal{F}E1​,E2​,...∈F. 

◦

σ\sigmaσ-field인 F\mathcal{F}F 중에 (−∞,b]={x:−∞<x≤b}(-\infty,b] = \{x:-\infty < x \le b\}(−∞,b]={x:−∞<x≤b}형태의 반-닫힌 구간(semi closed interval)으로부터 생성된 것을 Borel σ\sigmaσ-field라고 하고 B\mathcal{B}B라 표기한다. 

•

이러한 구간들의 합집합, 교집합, 여집합을 취하여 B\mathcal{B}B가 다음과 같은 집합을 포함하고 있음을 알 수 있다. 

(a, b),[a,b],(a,b],[a,b],\{b\}, -\infty \le a \le b \le \infty

•

위 예에서 사건 공간을 하한이 000이고 상한이 ≤Tmax⁡\le T_{\max}≤Tmax​인 구간만 포함하도록 추가로 제한할 수 있다.

•

확률 측정을 정의하기 위해 각 x∈Ωx \in \Omegax∈Ω에 대한 가중치 함수 pX(x)≥0p_X(x) \ge 0pX​(x)≥0를 정의한다. 이것을 확률 밀도 함수(probability density function, pdf)라고 한다. 그러면 다음을 사용하여 이벤트 E=[a,b]E=[a,b]E=[a,b]의 확률을 유도할 수 있다.

\mathbb{P}([a,b]) = \int_E d\mathbb{P} = \int_a^b p(x) dx

•

또한 다음과 같이 확률 변수 XXX에 대한 누적 분포 함수(cumulative distribution fuction, cdf)를 정의할 수 있다.

P_X(x) \triangleq \mathbb{P}[X\le x] = \int_{-\infty}^x p_X(x')dx'

•

이것으로부터 다음과 같이 구간의 확률을 계산할 수 있다.

\mathbb{P}([a,b]) = p(a\le X \le b) = P_X(b) - P_X(a)

•

위의 정의를 다차원 공간 Ω⊆Rn\Omega \subseteq \mathbb{R}^nΩ⊆Rn 뿐만 아니라 함수 같은 더 복잡한 샘플 공간으로 일반화할 수 있다.

•

‘확률 분포’라는 용어는 pdf pXp_XpX​나 cdf PXP_XPX​나 확률 측정 P\mathbb{P}P를 의미할 수 있다.

확률 공리(Probability Aximoms)

•

확률 공리는 다음의 3가지이다.

◦

음이 아님(Non-negativity): P[E]≥0\mathbb{P}[E]\ge 0P[E]≥0 for any E⊆ΩE \subseteq\OmegaE⊆Ω

◦

정규화(Normalization): P[Ω]=1\mathbb{P}[\Omega] = 1P[Ω]=1

◦

가산성(Additivity): 쌍별 분리된 집합의 모든 countable 시퀀스 {E1,E2,...,}\{E_1,E_2,...,\}{E1​,E2​,...,}에 대해 다음이 성립한다.

\mathbb{P}[\cup_{i=1}^\infty E_i] = \sum_{i=1}^\infty \mathbb{P}[E_i]

•

2개의 분리된 집합 E1,E2E_1, E_2E1​,E2​만 갖는 유한한 경우에 다음이 된다.

\mathbb{P}[E_1 \cup E_2] = \mathbb{P}[E_1] + \mathbb{P}[E_2]

•

이것은 상호 간에 배타적이라는 가정 하에 E1∨E2E_1 \vee E_2E1​∨E2​의 확률에 해당한다. 

•

이 공리로부터 여집합(complement) 규칙을 유도할 수 있다.

\mathbb{P}[E^c] = 1 - \mathbb{P}[E]

•

여기서 Ec=Ω\EE^c = \Omega \backslash EEc=Ω\E는 EEE의 여집합이다. 

◦

이것은 P[Ω]=1=P[E∪Ec]=P[E]+P[Ec]\mathbb{P}[\Omega] = 1 = \mathbb{P}[E\cup E^c] = \mathbb{P}[E] + \mathbb{P}[E^c]P[Ω]=1=P[E∪Ec]=P[E]+P[Ec]이기 때문이다.

◦

또한 P[E]≤1\mathbb{P}[E] \le 1P[E]≤1와 P[∅]=0\mathbb{P}[\empty] = 0P[∅]=0임을 보일 수 있다.

•

가산 규칙(addition rule)이라 불리는 다음의 결과를 보일 수 있다.

\mathbb{P}[E_1 \cup E_2] = \mathbb{P}[E_1] + \mathbb{P}[E_2] - \mathbb{P}[E_1 \cap E_2]

Conditional probability

•

2개의 사건 E1,E2E_1, E_2E1​,E2​에 대해 P[E2]≠0\mathbb{P}[E_2] \ne 0P[E2​]=0이면, 다음과 같이 주어진 E2E_2E2​에 대해 E1E_1E1​의 조건부 확률(conditional probability)을 정의할 수 있다.

\mathbb{P}[E_1|E_2] \triangleq {\mathbb{P}[E_1 \cap E_2] \over \mathbb{P}[E_2]}

•

이것으로부터 곱 규칙(multiplication rule)을 얻을 수 있다.

\mathbb{P}[E_1 \cap E_2] = \mathbb{P}[E_1|E_2]\mathbb{P}[E_2] = \mathbb{P}[E_2|E_1]\mathbb{P}[E_1]

•

조건부 확률은 E2E_2E2​가 발생했을 때 E1E_1E1​가 발생할 가능성을 측정한다. 그러나 사건이 연관되어 있지 않으면 확률은 변하지 않는다. 이것을 형식적으로 E1E_1E1​와 E2E_2E2​가 독립 사건(independent event)라고 한다.

\mathbb{P}[E_1 \cap E_2] = \mathbb{P}[E_1]\mathbb{P}[E_2]

•

P[E1]>0\mathbb{P}[E_1] >0P[E1​]>0이고 P[E2]>0\mathbb{P}[E_2] >0P[E2​]>0이면 P[E1∣E2]=P[E1]\mathbb{P}[E_1|E_2] = \mathbb{P}[E_1]P[E1​∣E2​]=P[E1​]이거나 동등하게 P[E2∣E1]=P[E2]\mathbb{P}[E_2|E_1] = \mathbb{P}[E_2]P[E2​∣E1​]=P[E2​]이다. 

•

유사하게 다음이 성립하면 주어진 E3E_3E3​에 대해 E1E_1E1​와 E2E_2E2​가 조건부 독립이라고 말할 수 있다.

\mathbb{P}[E_1 \cap E_2|E_3] =\mathbb{P}[E_1|E_3]\mathbb{P}[E_2|E_3]

•

조건부 확률의 정의로부터 총 확률의 법칙(law of total probability)를 유도할 수 있다. 만일 {A1,...,An}\{A_1,...,A_n\}{A1​,...,An​}가 표본 공간 Ω\OmegaΩ의 분할이면 모든 사건 B⊆ΩB \subseteq \OmegaB⊆Ω에 대해 다음이 성립한다.

\mathbb{P}[B] = \sum_{i=1}^n \mathbb{P}[B|A_i]\mathbb{P}[A_i]

Bayes’ rule

•

조건부 확률의 정의로부터 Bayes Rule 또는 Bayes theorem을 유도할 수 있다. P[E1]>0\mathbb{P}[E_1] >0P[E1​]>0이고 P[E2]>0\mathbb{P}[E_2] >0P[E2​]>0인 두 사건 E1E_1E1​와 E2E_2E2​에 대해 다음이 성립한다.

\mathbb{P}[E_1|E_2] ={\mathbb{P}[E_2|E_1]\mathbb{P}[E_1] \over \mathbb{P}[E_2]}

•

KKK개 가능한 상태의 이산 확률 변수 XXX에 대해 총 확률의 법칙을 사용하여 다음과 같이 베이즈 규칙을 작성할 수 있다.

\begin{aligned} p(X=k|E) &= {p(E|X=k)p(X=k) \over p(E)} \\&= {p(E|X=k)p(X=k) \over \sum_{k'=1}^K p(E|X=k')p(X=k')} \end{aligned}

•

여기서 p(X=k)p(X=k)p(X=k)는 prior 확률이고, p(E∣X=k)p(E|X=k)p(E∣X=k)는 likelihood이고, p(X=k∣E)p(X=k|E)p(X=k∣E)는 posterior 확률이고, p(E)p(E)p(E)는 marginal likelihood라고 부르는 정규화(normalization) 상수이다. 

•

유사하게 연속 확률 변수 XXX에 대해 다음과 같이 베이즈 룰을 작성할 수 있다.

\begin{aligned} p(X=x|E) &= {p(E|X=x)p(X=x) \over p(E)} \\&= {p(E|X=x)p(X=x) \over \int p(E|X=x')p(X=x')dx'} \end{aligned}

참조

•

Probabilistic Machine Learning: Advanced Topics