수학/ 베르누이 분포, 이항 분포, 카테고리 분포, 다항 분포

베르누이 분포

베르누이 분포의 Maximum Likelihood Estimation

이항 분포

이항 분포의 Maximum Likelihood Estimation

카테고리 분포

카테고리 분포의 Maximum Likelihood Estimation

다항 분포

다항 분포의 Maximum Likelihood Estimation

참고

베르누이 분포, 이항 분포, 카테고리 분포, 다항 분포는 모두 이산 확률 분포이며 확률 질량 함수(PMF)로 정의된다.

베르누이 분포

•

베르누이 분포는 0, 1의 값을 갖는 확률 분포. 1이 나올 확률을 의미하는 매개 변수 θ\thetaθ를 이용하여 다음과 같이 정의한다.

\text{Bern}(x;\theta) \triangleq \begin{cases} \theta & (x = 1) \\ 1 - \theta & (x = 0)\end{cases}

•

이 식을 하나로 합치면 다음과 같이 정의할 수 있다.

\text{Bern}(x;\theta) = \theta^{x}(1-\theta)^{1 - x}

•

만약 베르누이 확률변수의 표본값이 1과 0이 아니라 1과 -1이라는 값을 가진다면 다음과 같은 수식으로 써야 한다.

\text{Bern}(x;\theta) = \theta^{(1+x) / 2}(1-\theta)^{(1 - x) / 2}

•

베르누이 분포의 기댓값과 분산은 다음과 같이 정의 된다.

\begin{aligned} \mathbb{E}[X] &= \theta \\ \mathbb{V}[X] &= \theta(1-\theta) \end{aligned}

베르누이 분포의 Maximum Likelihood Estimation

•

베르누이 분포의 Likelihood 함수는 다음과 같이 정의 됨.

\mathcal{L}(\theta) = \prod_{i=1}^{N} \theta^{x_i}(1-\theta)^{1-x_i}

•

Log를 씌우면 다음과 같이 된다.

\ell(\theta) = \sum_{i=1}^{N} [x_i \log \theta + (1-x_i) \log(1-\theta)]

•

위 식에 대해 θ\thetaθ로 편미분하고 그 식을 0으로 만드는 값을 찾으면 다음과 같이 θ\thetaθ의 MLE가 구해진다.

\theta_{MLE} = {1 \over N} \sum_{i=1}^{N} x_i

이항 분포

•

베르누이 분포를 nnn번 시행해서 kkk번 성공한 분포로 다음과 같이 정의 된다.

◦

베르누이 분포는 시행 횟수가 1인 이항 분포의 특수한 경우이다.

\text{Bin}(k;n,\theta) \triangleq \binom{n}{k} \theta^{k} (1-\theta)^{n - k}

•

이 식에서 (nk)\binom{n}{k}(kn​) 기호는 nnn개 원소 중에 kkk개 원소를 순서와 상관없이 선택할 수 있는 경우의 수를 뜻한다. 조합은 다음 공식으로 계산할 수 있다.

\binom{n}{k} = {n! \over k!(n-k)!}

•

이항 분포의 기댓값과 분산은 다음과 같이 정의 된다.

\begin{aligned} \mathbb{E}[X] &= N \theta \\ \mathbb{V}[X] &= N \theta (1-\theta) \end{aligned}

이항 분포의 Maximum Likelihood Estimation

•

이항 분포는 베르누이 분포를 NNN번 시행에 대한 것으로 MLE는 베르누이 분포와 같다.

\theta_\text{MLE} = {1 \over N} \sum_{i=1}^{N} x_i

카테고리 분포

•

카테고리 분포는 0, 1이 아닌 KKK개의 class를 가질 수 있는 분포로 다음과 같이 정의 된다.

◦

베르누이 분포는 클래스가 1인 카테고리 분포의 특수한 경우이다. 

◦

아래 식에서 I(x=c)\mathbb{I}(x=c)I(x=c)는 x=cx=cx=c일 때 1, 아니면 0을 반환하는 함수이다.

◦

이 식에서 파라미터 θ\boldsymbol{\theta}θ는 0≤θk≤10 \leq \theta_k \leq 10≤θk​≤1과 ∑c=1Kθc=1\sum_{c=1}^{K} \theta_c = 1∑c=1K​θc​=1이 되도록 제한된다.

\text{Cat}(x|\boldsymbol{\theta}) \triangleq \prod_{c=1}^{K} \theta_{c}^{\mathbb{I}(x=c)}

•

카테고리 분포는 원-핫 인코딩을 이용해서 정의가 가능한데, 이 경우 다음처럼 정의할 수 있다.

◦

아래 식에서 x\bold{x}x는 길이가 KKK인 원-핫 인코딩 —1개만 1이고 나머지는 모두 0인— 벡터이다.

\text{Cat}(\bold{x}|\boldsymbol{\theta}) \triangleq \prod_{c=1}^{K} \theta_{c}^{x_c}

•

참고) 벡터가 지수로 올라가면, 벡터의 각 요소만큼 반복된다. 예컨대 위의 경우 K=3K = 3K=3일 때 계산은 다음과 같이 된다.

c = 1 \to \bold{x} = [1,0,0], \text{Cat}(\bold{x}|\boldsymbol{\theta}) = \theta_1^1 \times \theta_2^0 \times \theta_3^0 = \theta_1 \\ c = 2 \to \bold{x} = [0,1,0], \text{Cat}(\bold{x}|\boldsymbol{\theta}) = \theta_1^0 \times \theta_2^1 \times \theta_3^0 = \theta_2 \\ c = 3 \to \bold{x} = [0,0,1], \text{Cat}(\bold{x}|\boldsymbol{\theta}) = \theta_1^0 \times \theta_2^0 \times \theta_3^1 = \theta_3

•

카테고리 분포의 기댓값과 분산은 다음과 같이 정의 된다.

\begin{aligned} \mathbb{E}[x_c] &= \theta_c \\ \mathbb{V}[x_c] &= \theta_c(1-\theta_c) \end{aligned}

카테고리 분포의 Maximum Likelihood Estimation

•

카테고리 분포는 베르누이 분포를 kkk개의 범주에 대해 일반화한 것으로 MLE는 다음과 같이 정의된다.

◦

아래 식에서 NNNNkN_kNk​ NkN_kNk​는 kkk번째 범주가 발생한 횟수.

\theta_{k_{MLE}} = {N_k \over N}

다항 분포

•

다항 분포는 카테고리 분포를 NNN번 시행한 분포로 다음과 같이 정의 된다.

◦

카테고리 분포는 시행 횟수가 1인 다항 분포의 특수한 경우이다.

◦

시행 횟수가 늘어났기 때문에, 여기서 xcx_cxc​는 원-핫 인코딩이 아니다.

\text{Mu}(\bold{x};N,\boldsymbol{\theta}) \triangleq \binom{X}{n} \prod_{c=1}^{K} \theta_c^{x_c} = \binom{N}{x_1, ... x_K} \prod_{c=1}^{K} \theta_c^{x_c}

•

다항 분포의 기댓값과 분산은 다음과 같이 정의 된다.

\begin{aligned} \mathbb{E}[x_c] &= N\theta_c \\ \mathbb{V}[x_c] &= N\theta_c(1-\theta_c) \end{aligned}

다항 분포의 Maximum Likelihood Estimation

•

다항 분포는 카테고리 분포의 NNN번 시행에 대한 것으로 MLE는 카테고리 분포와 같다.

◦

아래 식에서 NNNNkN_kNk​ NkN_kNk​는 kkk번째 범주가 발생한 횟수.

\theta_{k_{MLE}} = {N_k \over N}

참고

•

Probabilistic Machine Learning: An Introduction

•