Search
Duplicate

수학/ 가우시안 분포 - 일변량, 다변량, 선형성, 베이즈룰

일변량 가우시안

가우시안은 평균 μ\mu와 분산 σ2\sigma^2으로 정의되는 연속 확률 분포로, 가정이 단순하고, 몇몇 특성들 때문에 가장 널리 쓰이는 분포이다.
정규 분포라는 이름으로도 불리지만, 그러면 다른 분포가 normal이 아닌 것처럼 보이기 때문에 적절하지 않다. 오히려 가우시안은 다른 분포에는 없는 여러 특징들 때문에 오히려 비정상이다.
가우시안의 누적 분포 함수(Cumulative Distribution Function, CDF)은 다음과 같이 정의 된다.
Φ(x;μ,σ2)xN(zμ,σ2)dz\Phi(x; \mu, \sigma^2) \triangleq \int_{-\infty}^{x} \mathcal{N}(z|\mu, \sigma^2) dz
가우시안의 확률 밀도 함수(Probability Density Function, PDF)는 다음과 같이 정의 된다.
아래 식에서 2πσ2\sqrt{2 \pi \sigma^2}는 밀도가 1로 통합되는데 필요한 정규화 상수이다.
N(xμ,σ2)12πσ2e12σ2(xμ)2\mathcal{N}(x|\mu, \sigma^2) \triangleq {1 \over \sqrt{2 \pi \sigma^2}} e^{-{1 \over 2 \sigma^2}(x - \mu)^2}
ee의 지수로 값을 올리면 표기상 눈에 잘 안보이기 때문에 위의 식은 exp\exp를 이용하여 표기한다.
N(xμ,σ2)=12πσ2exp(12σ2(xμ)2)\mathcal{N}(x|\mu, \sigma^2) = {1 \over \sqrt{2 \pi \sigma^2}} \exp \left({-{1 \over 2 \sigma^2}(x - \mu)^2}\right)
가우시안 중에서도 평균이 00이고 분산이 11인 (μ=0,σ2=1\mu = 0, \sigma^2 = 1) 가우시안을 표준정규분포(standard normal distribution)라고 한다.
분산의 역수를 정밀도(precision)이라고 부르며 다음과 같이 정의한다.
λ1σ2\lambda \triangleq {1 \over \sigma^2}
가우시안 분포의 지수 부분을 다음과 같이 2차식의 형태로 정리 할 수 있다.
(xμ)22σ2=12σ2x2+μσ2xμ22σ2-{(x - \mu)^2 \over 2\sigma^2} = -{1\over 2\sigma^2}x^2 + {\mu \over \sigma^2}x - {\mu^2 \over 2\sigma^2}
이것은 ax2+bxax^2 + bx의 형태가 된다. 여기서 x2x^2xx의 계수를 다음과 같이 정리할 수 있다.
a=12σ2b=μσ2a = -{1\over 2\sigma^2} \\ b = {\mu \over \sigma^2}
위 계수 a,ba, b를 이용하여 평균과 분산을 다음과 같이 유도할 수 있다.
μ=b2aσ2=12a\mu = -{b\over 2a} \\ \sigma^2 = -{1\over 2a}
따라서 가우시안 분포에 대해 지수 함수 내에 ax2+bxax^2 + bx 형태를 유도할 수 있으면, 해당 계수 a,ba, b를 이용하여 가우시안 분포의 평균과 분산을 유도할 수 있다.

일변량 가우시안의 Maximum Likelihood Estimation

일변량 가우시안의 Likelihood 함수는 다음과 같이 정의 됨.
L(μ,σ2)=i=1N12πσ2exp((xiμ)22σ2)\mathcal{L}(\mu, \sigma^2) = \prod_{i=1}^{N} {1 \over \sqrt{2 \pi \sigma^2}} \exp \left(-{(x_i - \mu)^2 \over 2\sigma^2} \right)
Log를 씌우면 다음과 같이 된다.
(μ,σ2)=i=1N(12log(2πσ2)(xiμ)22σ2)\ell(\mu, \sigma^2) = \sum_{i=1}^{N} \left( - {1 \over 2} \log (2\pi \sigma^2) - {(x_i - \mu)^2 \over 2\sigma^2} \right)
위 식에 대해 μ,σ2\mu, \sigma^2으로 각각 편미분하고 그 식을 0으로 만드는 값을 찾으면 다음과 같이 μ,σ2\mu, \sigma^2의 MLE가 구해진다.
μMLE=1Ni=1NxiσMLE2=1Ni=1N(xiμ)2\begin{aligned} \mu_{MLE} &= {1 \over N} \sum_{i=1}^{N} x_i \\ \sigma_{MLE}^2 &= {1 \over N} \sum_{i=1}^{N} (x_i - \mu)^2 \end{aligned}

중심 극한 정리

중심극한정리(Central Limit Theorem)는 여러 분포의 합이 커지면 정규분포와 비슷한 분포를 이루는 현상을 말한다.
많은 현상을 정규분포를 이용해 모형화 하는 이유 중의 하나가 바로 이것 때문이다.
아래 식의 d\overset{d}{\to} 기호는 표본 개수 NN이 커질수록 분포의 모양이 특정한 분포에 수렴한다는 것을 뜻한다.
NN개의 임의의 분포로부터 얻은 표본의 평균은 NN이 증가할수록 기댓값이 μ\mu, 분산이 σ2N{\sigma^2 \over N}인 정규분포로 수렴한다.
XˉNdN(x;μ,σ2N)\bar{X}_N \overset{d}{\to} N \left( x;\mu, {\sigma^2 \over N} \right)
이 표본 평균의 평균이 00, 분산이 11이 되도록 다음처럼 정규화를 하면 다음과 같이 쓸 수도 있다.
NN개의 임의의 분포로부터 얻은 표본의 평균을 정규화하면 NN이 증가할수록 표준정규분포로 수렴한다.
XˉNμσNdN(x;0,1){\bar{X}_N - \mu \over {\sigma \over \sqrt{N}}} \overset{d}{\to} N(x;0,1)

다변량 가우시안

다변수 가우시안(multi-variate normal, MVN)은 다음과 같이 정의 된다.
이 식에서 x\bold{x}μ\boldsymbol{\mu}DD차원 벡터이고, Σ\boldsymbol{\Sigma}D×DD \times D 차원 공분산 행렬이다.
정규화 상수 Z=(2π)D/2Σ1/2Z = (2\pi)^{D/2}|\boldsymbol{\Sigma}|^{1/2}는 PDF가 1로 통합되도록 보장한다.
N(xμ,Σ)1(2π)D/2Σ1/2exp[12(xμ)TΣ1(xμ)]\mathcal{N}(\bold{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma}) \triangleq {1 \over (2\pi)^{D/2}|\boldsymbol{\Sigma}|^{1/2}} \exp \left[ -{1 \over 2} (\bold{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\bold{x} - \boldsymbol{\mu}) \right]
공분산 행렬은 다음과 같이 정의된다.
대각방향에는 자기 자신에 대한 분산이 있고, 나머지 항에는 두 분포의 공분산이 존재.
Cov[x]E[(xE[x])(xE[x])T]=(V[X1]Cov[X1,X2]...Cov[X1,XD]Cov[X2,X1]V[X2]...Cov[X2,XD]............Cov[XD,X1]Cov[XD,X2]...V[XD])\text{Cov}[\bold{x}] \triangleq \mathbb{E}[(\bold{x} - \mathbb{E}[\bold{x}])(\bold{x} - \mathbb{E}[\bold{x}])^T] = \left( \begin{matrix} \mathbb{V}[X_1] & \text{Cov}[X_1, X_2] & ... & \text{Cov}[X_1, X_D] \\ \text{Cov}[X_2, X_1] & \mathbb{V}[X_2] & ... & \text{Cov}[X_2, X_D] \\ ... & ... & ... & ... \\ \text{Cov}[X_D, X_1] & \text{Cov}[X_D, X_2] & ... & \mathbb{V}[X_D] \end{matrix} \right)
Cov[Xi,Xj]=E[(XiE[Xi])(XjE[Xj])]=E[XiXj]E[Xi]E[Xj]\text{Cov}[X_i, X_j] = \mathbb{E}[(X_i - \mathbb{E}[X_i])(X_j - \mathbb{E}[X_j])] = \mathbb{E}[X_i X_j] - \mathbb{E}[X_i] \mathbb{E}[X_j]
위 식을 유도하여 다음을 얻을 수 있다.
E[xxT]=Σ+μμT\mathbb{E}[\bold{xx}^T] = \boldsymbol{\Sigma} + \boldsymbol{\mu \mu}^T
일변량 때와 유사하게 공분산의 역행렬을 정밀도 행렬(precision matrix)이라고 하고 다음처럼 정의한다.
ΛΣ1\boldsymbol{\Lambda} \triangleq \boldsymbol{\Sigma}^{-1}
다변량 가우시안의 공분산 행렬은 Σ\boldsymbol{\Sigma}는 양의 정부호인 대칭행렬이므로 대각화가능이다. 정밀도행렬 Σ1\boldsymbol{\Sigma}^{-1}는 다음처럼 분해할 수 있다.
이 식에서 Λ\boldsymbol{\Lambda}는 고윳값행렬, V\bold{V}는 고유벡터행렬이다.
Σ1=VΛ1VT\boldsymbol{\Sigma}^{-1} = \bold{V} \boldsymbol{\Lambda}^{-1} \bold{V}^T
다변량 가우시안에 대해 로그를 씌우면 다음과 같이 유도된다.
logp(xμ,Σ)=log(1(2π)D/2Σ1/2)12(xμ)TΣ1(xμ)(logaeb=loga+logeb=loga+b)\log p(\bold{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma}) = \log \left( {1 \over (2\pi)^{D/2}|\boldsymbol{\Sigma}|^{1/2}} \right) -{1 \over 2} (\bold{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\bold{x} - \boldsymbol{\mu}) \\ (\because \log a e^b = \log a + \log e^b = \log a + b)
이 식에서 앞의 log\log 부분은 상수 처리하여 다음과 같이 사용한다.
logp(xμ,Σ)=12(xμ)TΣ1(xμ)+const\log p(\bold{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma}) = -{1 \over 2} (\bold{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\bold{x} - \boldsymbol{\mu}) + \text{const}
일변량 가우시안과 마찬가지로 다변량 가우시안의 경우도 지수 함수의 2차식을 유도할 수 있으면 평균과 공분산 행렬을 구할 수 있다. 우선 다변량 가우시안의 지수 부분을 전개하여 다음과 같이 2차 형태로 표현한다.
12(xμ)TΣ1(xμ)=12xΣ1x+xΣ1μ12μΣ1μ -{1 \over 2} (\bold{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\bold{x} - \boldsymbol{\mu}) = -{1\over2}\bold{x}^\top \boldsymbol{\Sigma}^{-1}\bold{x} + \bold{x}^\top\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu} - {1\over 2}\boldsymbol{\mu}^\top \boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}
여기서 12xΣ1x-{1\over2}\bold{x}^\top \boldsymbol{\Sigma}^{-1}\bold{x}는 2차 항이고, xΣ1μ\bold{x}^\top\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}는 1차항이 된다.
다변량 가우시안의 공분산 행렬은 2차항의 역행렬과 연관된다. 2차항의 계수가 Σ1\boldsymbol{\Sigma}^{-1}이므로 공분산행렬은 Σ1\boldsymbol{\Sigma}^{-1}의 역행렬 (Σ1)1=Σ(\boldsymbol{\Sigma}^{-1})^{-1} = \boldsymbol{\Sigma}이 된다.
평균 벡터는 1차 항의 계수를 2차항의 계수로 나누어 얻을 수 있다. 1차 항의 계수가 Σ1μ\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}이므로 평균 벡터 μ\boldsymbol{\mu}Σ\boldsymbol{\Sigma}와 1차 항의 계수의 곱으로 계산될 수 있다.

다변량 가우시안의 Maximum Likelihood Estimation

다변량 가우시안의 평균과 공분산의 MLE는 다음과 같이 정의된다.
일변량 가우시안 때와 마찬가지로 Likelihood 함수에 Log를 씌운 후에 μ,Σ\boldsymbol{\mu, \Sigma}로 각각 편미분하여 식을 0\bold{0}으로 만드는 값을 찾는다.
아래의 식에서 (xiμMLE)(xiμMLE)T(\bold{x}_i - \boldsymbol{\mu}_{MLE})(\bold{x}_i - \boldsymbol{\mu}_{MLE})^T는 외적이다.
μMLE=1Ni=1NxiΣMLE=1Ni=1N(xiμ)(xiμ)T\begin{aligned} \boldsymbol{\mu}_{MLE} &= {1 \over N} \sum_{i=1}^{N} \bold{x}_i \\ \boldsymbol{\Sigma}_{MLE} &= {1 \over N} \sum_{i=1}^{N} (\bold{x}_i - \boldsymbol{\mu})(\bold{x}_i - \boldsymbol{\mu})^T \end{aligned}

2차원 예

MVN이 2차원이면 이변량 가우스 분포(bivariate Gaussian distribution)라고 한다. 이때 pdf는 xN(μ,Σ)\bold{x} \sim \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma})로 표현될 수 있고, 여기서 xR2,μR2\bold{x} \in \mathbb{R}^2, \boldsymbol{\mu} \in \mathbb{R}^{2}이다.
Σ=(σ12σ122σ212σ22)=(σ12ρσ1σ2ρσ1σ2σ22)\boldsymbol{\Sigma} = \left( \begin{matrix} \sigma_{1}^{2} & \sigma_{12}^{2} \\ \sigma_{21}^{2} & \sigma_{2}^{2} \end{matrix} \right) = \left( \begin{matrix} \sigma_{1}^{2} & \rho \sigma_{1} \sigma_{2} \\ \rho \sigma_{1} \sigma_{2} & \sigma_{2}^{2} \end{matrix} \right)
여기서 ρ\rho는 상관 계수(correlation coefficient)이며 다음과 같이 정의된다.
이때 1corr[X1,X2]1-1 \leq \text{corr}[X_1, X_2] \leq 1
corr[X1,X2]=Cov[X1,X2]V[X1]V[X2]=σ122σ1σ2\text{corr}[X_1, X_2] = {\text{Cov}[X_1, X_2] \over \sqrt{\mathbb{V}[X_1] \mathbb{V}[X_2]}} = {\sigma_{12}^{2} \over \sigma_{1} \sigma_{2}}

다변량 가우시안의 주변(Marginal) 분포

다변량 가우시안에서 주변(marginal)은 다변량 분포에 있는 변수의 하위 집합에 대한 확률 분포를 말한다.
예컨대 특정 도시 사람들의 연령과 소득이 결합(join)된 분포가 있을 때, 연령에 관계 없이 소득에 대한 분포를 보려면 소득을 기준으로 연령을 합산하면 되는데, 이 결과가 소득에 대한 주변 분포(marginal distribution)이 된다.
주변 분포는 다른 변수를 ‘marginalize’ 하거나 ‘sums out’하여 관심 변수에 대한 분포를 얻는다.
예컨대 x1\bold{x}_1x2\bold{x}_2로 이루어진 결합 확률밀도함수 p(x1,x2)p(\bold{x}_1, \bold{x}_2)x2\bold{x}_2로 적분하면 x1\bold{x}_1의 주변확률분포가 된다.
p(x1)=p(x1,x2)dx2=N(x1;μ1,Σ11)p(\bold{x}_1) = \int p(\bold{x}_1, \bold{x}_2) d\bold{x}_2 = \mathcal{N}(\bold{x}_1;\boldsymbol{\mu}_1,\boldsymbol{\Sigma}_{11})
다변량 가우시안의 결합 분포가 다음과 같이 주어져있다고 하면,
(x1x2)N(μ=(μ1μ2),Σ=(Σ11Σ12Σ21Σ22),Λ=Σ1=(Λ11Λ12Λ21Λ22))\left( \begin{matrix} \bold{x}_1 \\ \bold{x}_2 \end{matrix} \right) \sim \mathcal{N} \left( \boldsymbol{\mu} = \left( \begin{matrix} \boldsymbol{\mu}_1 \\ \boldsymbol{\mu}_2 \end{matrix} \right), \boldsymbol{\Sigma} = \left( \begin{matrix} \boldsymbol{\Sigma}_{11} & \boldsymbol{\Sigma}_{12} \\ \boldsymbol{\Sigma}_{21} & \boldsymbol{\Sigma}_{22} \end{matrix} \right), \boldsymbol{\Lambda} = \boldsymbol{\Sigma}^{-1} = \left( \begin{matrix} \boldsymbol{\Lambda}_{11} & \boldsymbol{\Lambda}_{12} \\ \boldsymbol{\Lambda}_{21} & \boldsymbol{\Lambda}_{22} \end{matrix} \right) \right)
평균과 공분산 행렬을 구하면 주변 분포 x1,x2\bold{x}_1, \bold{x}_2는 다음과 같이 쉽게 구할 수 있다.
다변량 가우시안의 주변 분포는 가우시안이다.
p(x1)=N(x1μ1,Σ11)p(x2)=N(x2μ2,Σ22)p(\bold{x}_1) = \mathcal{N}(\bold{x}_1|\boldsymbol{\mu}_1, \boldsymbol{\Sigma}_{11}) \\ p(\bold{x}_2) = \mathcal{N}(\bold{x}_2|\boldsymbol{\mu}_2, \boldsymbol{\Sigma}_{22})

다변량 가우시안의 조건부(Conditional) 분포

다변량 가우시안에서 같은 조건부 분포를 정의하려면 우선 결합 분포를 정의해야 한다. 다변량 가우시안의 결합 분포가 다음과 같이 주어졌다고 하자.
(x1x2)N(μ=(μ1μ2),Σ=(Σ11Σ12Σ21Σ22),Λ=Σ1=(Λ11Λ12Λ21Λ22))\left( \begin{matrix} \bold{x}_1 \\ \bold{x}_2 \end{matrix} \right) \sim \mathcal{N} \left( \boldsymbol{\mu} = \left( \begin{matrix} \boldsymbol{\mu}_1 \\ \boldsymbol{\mu}_2 \end{matrix} \right), \boldsymbol{\Sigma} = \left( \begin{matrix} \boldsymbol{\Sigma}_{11} & \boldsymbol{\Sigma}_{12} \\ \boldsymbol{\Sigma}_{21} & \boldsymbol{\Sigma}_{22} \end{matrix} \right), \boldsymbol{\Lambda} = \boldsymbol{\Sigma}^{-1} = \left( \begin{matrix} \boldsymbol{\Lambda}_{11} & \boldsymbol{\Lambda}_{12} \\ \boldsymbol{\Lambda}_{21} & \boldsymbol{\Lambda}_{22} \end{matrix} \right) \right)
이때 두 분포에 대한 조건부 분포는 다음과 같이 조건부 평균과 조건부 공분산행렬 형식으로 주어진다.
다변량 가우시안의 조건부 분포는 가우시안이다.
p(x1x2)=N(x1μ12,Σ12)=1(2π)D/2Σ121/2exp[12(x1μ12)TΣ121(x1μ12)]\begin{aligned} p(\bold{x}_1|\bold{x}_2) &= \mathcal{N}(\bold{x}_1|\boldsymbol{\mu}_{1|2}, \boldsymbol{\Sigma}_{1|2}) \\ &= {1 \over (2\pi)^{D/2}|\boldsymbol{\Sigma}_{1|2}|^{1/2}} \exp \left[ -{1 \over 2} (\bold{x}_1 - \boldsymbol{\mu}_{1|2})^T \boldsymbol{\Sigma}_{1|2}^{-1} (\bold{x}_1 - \boldsymbol{\mu}_{1|2}) \right] \end{aligned}
여기서 평균 μ12\boldsymbol{\mu}_{1|2}는 다음과 같다.
μ12=μ1+Σ12Σ221(x2μ2)=μ1Λ111Λ12(x2μ2)=Σ12(Λ11μ1Λ12(x2μ2))\begin{aligned} \boldsymbol{\mu}_{1|2} &= \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} (\bold{x}_2 - \boldsymbol{\mu}_2) \\ &= \boldsymbol{\mu}_1 - \boldsymbol{\Lambda}_{11}^{-1} \boldsymbol{\Lambda}_{12}(\bold{x}_2 - \boldsymbol{\mu}_2) \\ &= \boldsymbol{\Sigma}_{1|2} (\boldsymbol{\Lambda}_{11} \boldsymbol{\mu}_1 - \boldsymbol{\Lambda}_{12}(\bold{x}_2 - \boldsymbol{\mu}_2)) \end{aligned}
여기서 공분산행렬 Σ12\boldsymbol{\Sigma}_{1|2}는 다음과 같다.
Σ12=Σ11Σ12Σ221Σ21=Λ111\boldsymbol{\Sigma}_{1|2} = \boldsymbol{\Sigma}_{11} - \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} \boldsymbol{\Sigma}_{21} = \boldsymbol{\Lambda}_{11}^{-1}
조건부 분포에 로그를 씌우면 exp\exp의 앞부분은 상수처리 되고 뒷부분만 사용된다.
logp(x1x2)=12(x1μ12)TΣ121(x1μ12)+const\log p(\bold{x}_1|\bold{x}_2) = -{1 \over 2} (\bold{x}_1 - \boldsymbol{\mu}_{1|2})^T \boldsymbol{\Sigma}_{1|2}^{-1} (\bold{x}_1 - \boldsymbol{\mu}_{1|2}) + \text{const}

가우시안의 선형성, 생성 모델

서로 다른 2개의 가우시안 분포 zRL,yRD\bold{z} \in \mathbb{R}^L, \bold{y} \in \mathbb{R}^D가 존재하고, y\bold{y}z\bold{z}의 값에 따라 조건부로 정의되면, 두 가우시안 분포에 선형 관계가 존재한다고 할 수 있다.
이 두 분포는 일변량이어도 되고 다변량이어도 된다.
그러한 식을 다음과 같이 정의할 수 있다.
이때 p(yz)p(\bold{y}|\bold{z})의 평균은 z\bold{z}를 이용해 선형적으로 정의된다. W\bold{W}는 크기가 D×LD\times L인 행렬이다.
p(z)=N(zμz,Σz)p(yz)=N(yWz+b,Σy)\begin{aligned} p(\bold{z}) &= \mathcal{N}(\bold{z}|\boldsymbol{\mu}_z, \boldsymbol{\Sigma}_z) \\ p(\bold{y}|\bold{z}) &= \mathcal{N}(\bold{y}|\bold{Wz} + \bold{b}, \boldsymbol{\Sigma}_y) \end{aligned}
이와 같은 관계에서 p(y)p(\bold{y})를 독립적으로 정의하려면 다음과 같이 z\bold{z}에 대한 모든 가능한 값을 통합하여 나타낼 수 있다.
p(y)=p(yz)p(z)dzp(\bold{y}) = \int p(\bold{y}|\bold{z})p(\bold{z}) dz
z,y\bold{z, y}에 대한 결합분포는 p(z,y)=p(z)p(yz)p(\bold{z, y}) = p(\bold{z})p(\bold{y|z})로 정의할 수 있으며 L+DL + D차원의 가우시안이다. 이 가우시안의 평균과 공분산은 다음과 같이 정의 된다.
μ=(μzWμz+b),Σ=(ΣzΣzWTWΣzΣy+WΣzWT)\boldsymbol{\mu} = \left( \begin{matrix} \boldsymbol{\mu}_z \\ \bold{W} \boldsymbol{\mu}_z + \bold{b} \end{matrix} \right), \boldsymbol{\Sigma} = \left( \begin{matrix} \boldsymbol{\Sigma}_z & \boldsymbol{\Sigma}_z \bold{W}^T \\ \bold{W} \boldsymbol{\Sigma}_z & \boldsymbol{\Sigma}_y + \bold{W} \boldsymbol{\Sigma}_z \bold{W}^T \end{matrix} \right)
이 결합 분포에 대해 베이즈룰을 적용하면 posterior 분포 p(zy)p(\bold{z}|\bold{y})를 계산할 수 있다.
생성 모델에서는 이러한 선형 관계를 이용하여 z\bold{z}를 잠재(Latent) 분포, y\bold{y}를 (노이즈가 포함된) 관찰된 분포라고 가정한다.
그렇게 하여 관찰된 데이터 y\bold{y}를 기반으로 잠재 분포 z\bold{z}를 추론하고, 그렇게 추론된 잠재 분포 z\bold{z}를 바탕으로 다시 새로운 데이터의 생성, 복원 —y\bold{y}z\bold{z}에 의해 선형적으로 표현되므로—의 작업을 수행한다. —이것이 explicit 생성 모델의 방식이다.

가우시안의 베이즈룰

두 가우시안 분포 z,y\bold{z, y}에 대해 사후 분포는 다음과 같이 주어진다. 이것을 가우시안에 대한 베이즈룰이라고 한다.
p(zy)=N(zμzy,Σzy)Σzy1=Σz1+WTΣy1Wμzy=Σzy[WTΣy1(yb)+Σz1μz]\begin{aligned} p(\bold{z}|\bold{y}) &= \mathcal{N}(\bold{z}|\boldsymbol{\mu}_{z|y}, \boldsymbol{\Sigma}_{z|y}) \\ \boldsymbol{\Sigma}_{z|y}^{-1} &= \boldsymbol{\Sigma}_{z}^{-1} + \bold{W}^T \boldsymbol{\Sigma}_{y}^{-1} \bold{W} \\ \boldsymbol{\mu}_{z|y} &= \boldsymbol{\Sigma}_{z|y} [\bold{W}^T \boldsymbol{\Sigma}_{y}^{-1} (\bold{y}-\bold{b}) + \boldsymbol{\Sigma}_{z}^{-1} \boldsymbol{\mu}_z] \end{aligned}
사후 분포에 대한 정규화 상수는 다음과 같이 주어진다.
p(y)=N(zμz,Σz)N(yWz+b,Σy)dz=N(yWμz+b,Σy+WΣzWT)p(\bold{y}) = \int \mathcal{N}(\bold{z}|\boldsymbol{\mu}_z, \boldsymbol{\Sigma}_z) \mathcal{N}(\bold{y}|\bold{Wz} + \bold{b}, \boldsymbol{\Sigma}_y) d\bold{z} \\ = \mathcal{N}(\bold{y}|\bold{W} \boldsymbol{\mu}_z + \bold{b}, \boldsymbol{\Sigma}_y + \bold{W} \boldsymbol{\Sigma}_z \bold{W}^T)
가우시안 사전 분포 p(z)p(\bold{z})와 가우시안 likelihood p(yz)p(\bold{y}|\bold{z})를 결합하면 가우시안 사후 분포 p(zy)p(\bold{z}|\bold{y})가 된다는 것을 알 수 있다. 따라서 가우시안은 베이지안 조건 하에서 닫힌다.
가우시안의 사전 분포는 가우시안 likelihood에 대한 켤레 사전(conjugate prior)라고 하는데, 이는 사후 분포가 사전 분포와 동일한 유형을 갖기 때문이다.

참고