수학/ Linear Gaussian System

Linear Gaussian systems

Joint distribution

Posterior distribution (Bayes’ rule for Gaussians)

A general calculus for linear Gaussian systems

Moment and canonical parameterization

Multiplication and division

Marginalization

Conditioning on evidence

Converting a linear-Gaussian CPD to a canonical potential

Example: Product of Gaussians

참조

Linear Gaussian systems

•

다음의 결합 분포를 갖는 결합 가우시안인 2개 확률 벡터 y∈RD,z∈RL\bold{y} \in \mathbb{R}^D, \bold{z} \in \mathbb{R}^Ly∈RD,z∈RL을 고려하자. 이것은 선형 가우시안 시스템의 예이다.

◦

여기서 W\bold{W}W는 D×LD \times LD×L 크기의 행렬이다. 

\begin{aligned} p(\bold{z}) &= \mathcal{N}(\bold{z}|\stackrel{\smile}{\boldsymbol{\mu}},\stackrel{\smile}{\boldsymbol{\Sigma}} ) \\ p(\bold{y}|\bold{z}) &= \mathcal{N}(\bold{y}|\bold{Wz} + \bold{b}, \boldsymbol{\Omega})\end{aligned}

•

(위의 식을 포함해서 이하의 식에서 나오는 표기에 대해)

◦

⌣\smile⌣ 위첨자는 prior를 의미한다. 고로 μ⌣,Σ⌣\stackrel{\smile}{\boldsymbol{\mu}},\stackrel{\smile}{\boldsymbol{\Sigma}}μ⌣​,Σ⌣는 prior μ,Σ\boldsymbol{\mu},\boldsymbol{\Sigma}μ,Σ가 됨.

◦

⌢\frown⌢ 위첨자는 posterior를 의미한다. 고로 μ⌢,Σ⌢\stackrel{\frown}{\boldsymbol{\mu}},\stackrel{\frown}{\boldsymbol{\Sigma}}μ⌢​,Σ⌢는 posterior μ,Σ\boldsymbol{\mu},\boldsymbol{\Sigma}μ,Σ가 됨.

Joint distribution

•

해당하는 결합 분포 p(z,y)=p(z)p(y∣z)p(\bold{z},\bold{y}) = p(\bold{z})p(\bold{y}|\bold{z})p(z,y)=p(z)p(y∣z)는 그 자체로 D+LD+LD+L 차원 가우시안이고 평균과 공분산 행렬은 다음과 같이 주어진다. (이 결과는 moment 매칭으로 얻을 수 있음)

\begin{aligned} p(\bold{z}, \bold{y}) &= \mathcal{N}(\bold{z}, \bold{y}|\tilde{\boldsymbol{\mu}},\tilde{\boldsymbol{\Sigma}} ) \\ \tilde{\boldsymbol{\mu}} &\triangleq \begin{pmatrix}\stackrel{\smile}{\boldsymbol{\mu}} \\ \bold{m}\end{pmatrix} \triangleq \begin{pmatrix} \stackrel{\smile}{\boldsymbol{\mu}} \\ \bold{W}\stackrel{\smile}{\boldsymbol{\mu}} + \bold{b} \end{pmatrix} \\ \tilde{\boldsymbol{\Sigma}} &\triangleq \begin{pmatrix} \stackrel{\smile}{\boldsymbol{\Sigma}} & \bold{C}^\top \\ \bold{C} & \bold{S} \end{pmatrix} \triangleq \begin{pmatrix} \stackrel{\smile}{\boldsymbol{\Sigma}} & \stackrel{\smile}{\boldsymbol{\Sigma}}\bold{W}^\top \\ \bold{W}\stackrel{\smile}{\boldsymbol{\Sigma}} & \bold{W}\stackrel{\smile}{\boldsymbol{\Sigma}}\bold{W}^\top + \boldsymbol{\Omega} \end{pmatrix} \end{aligned}

Posterior distribution (Bayes’ rule for Gaussians)

•

선형 가우시안 시스템으로부터 posterior p(z∣y)p(\bold{z}|\bold{y})p(z∣y)를 계산하는 것을 고려하자. 결합 가우시안을 조건화하기 위한 방정식을 사용하면 다음과 같이 주어지는 posterior를 찾을 수 있다.

\begin{aligned} p(\bold{z}|\bold{y}) &= \mathcal{N}(\bold{z}|\stackrel{\frown}{\boldsymbol{\mu}},\stackrel{\frown}{\boldsymbol{\Sigma}} ) \\ \stackrel{\frown}{\boldsymbol{\mu}} &= \stackrel{\smile}{\boldsymbol{\mu}} + \stackrel{\smile}{\boldsymbol{\Sigma}}\bold{W}^\top(\boldsymbol{\Omega}+\bold{W}\stackrel{\smile}{\boldsymbol{\Sigma}}\bold{W}^\top)^{-1}(\bold{y}-(\bold{W}\stackrel{\smile}{\boldsymbol{\mu}} + \bold{b})) \\ \stackrel{\frown}{\boldsymbol{\Sigma}} &= \stackrel{\smile}{\boldsymbol{\Sigma}}-\stackrel{\smile}{\boldsymbol{\Sigma}}\bold{W}^\top(\boldsymbol{\Omega} + \bold{W}\stackrel{\smile}{\boldsymbol{\Sigma}}\bold{W}^\top)^{-1}\bold{W}\stackrel{\smile}{\boldsymbol{\Sigma}}\end{aligned}

•

이것은 가우시안에 대한 베이즈룰이라고 한다.

•

prior p(z)p(\bold{z})p(z)가 가우시안이면 likelihood p(y∣z)p(\bold{y}|\bold{z})p(y∣z)도 가우시안이고 posterior p(z∣y)p(\bold{z}|\bold{y})p(z∣y)도 가우시안임을 볼 수 있다. 

◦

posterior 분포가 prior와 같은 형식을 갖기 때문에 가우시안 prior는 가우시안 likelihood와 conjugate prior라고 할 수 있다. 즉 가우시안은 베이지안 업데이트에 닫혀 있다.

•

S=WΣ⌣W⊤+Ω,C=Σ⌣W⊤,m=Wμ⌣+b\bold{S} = \bold{W}\stackrel{\smile}{\boldsymbol{\Sigma}}\bold{W}^\top + \boldsymbol{\Omega}, \bold{C} = \stackrel{\smile}{\boldsymbol{\Sigma}}\bold{W}^\top, \bold{m} = \bold{W}\stackrel{\smile}{\boldsymbol{\mu}} + \bold{b}S=WΣ⌣W⊤+Ω,C=Σ⌣W⊤,m=Wμ⌣​+b을 정의하여 이 방정식들을 단순화 할 수 있다. 

•

또한 Kalman gain matrix를 정의할 수 있다.

\bold{K} = \bold{CS}^{-1}

•

이것으로부터 posterior를 얻을 수 있다.

\begin{aligned} \stackrel{\frown}{\boldsymbol{\mu}} &= \stackrel{\smile}{\boldsymbol{\mu}} + \bold{K}(\bold{y}-\bold{m}) \\ \stackrel{\frown}{\boldsymbol{\Sigma}} &= \stackrel{\smile}{\boldsymbol{\Sigma}}-\bold{KC}^\top\end{aligned}

•

다음에 유의하라.

\bold{KSK}^\top = \bold{CS}^{-1}\bold{SS}^{-\top}\bold{C}^\top = \bold{CS}^{-1}\bold{C}^\top = \bold{KC}^\top

•

따라서 posterior 공분산을 다음과 같이 작성할 수 있다.

\stackrel{\frown}{\boldsymbol{\Sigma}} = \stackrel{\smile}{\boldsymbol{\Sigma}}-\bold{KSK}^\top

•

행렬 역 lemma를 사용하여 다음 형식으로 posterior를 재작성할 수 있다. 

◦

이것은 O(D3)O(D^3)O(D3)시간이 걸리는 대신 O(L3)O(L^3)O(L3) 시간이 걸린다.

\begin{aligned} \stackrel{\frown}{\boldsymbol{\Sigma}} &= (\stackrel{\smile}{\boldsymbol{\Sigma}}^{-1} + \bold{W}^\top \boldsymbol{\Omega}^{-1}\bold{W})^{-1} \\ \stackrel{\frown}{\boldsymbol{\mu}} &= \stackrel{\frown}{\boldsymbol{\Sigma}}[\bold{W}^\top\boldsymbol{\Omega}^{-1}(\bold{y}-\bold{b}) + \stackrel{\smile}{\boldsymbol{\Sigma}}^{-1}\stackrel{\smile}{\boldsymbol{\mu}})\end{aligned}

•

마지막으로 posterior에 대해 해당하는 정규화 상수는 관찰된 값에서 평가된 y\bold{y}y의 marginal이다.

\begin{aligned} p(\bold{y}) &= \int \mathcal{N}(\bold{z}|(\stackrel{\smile}{\boldsymbol{\mu}},\stackrel{\smile}{\boldsymbol{\Sigma}})\mathcal{N}(\bold{y}|\bold{Wz} + \bold{b}, \boldsymbol{\Omega})d\bold{z} \\ &= \mathcal{N}(\bold{y}|\bold{W}\stackrel{\smile}{\boldsymbol{\mu}} + \bold{b}, \boldsymbol{\Omega} + \bold{W}\stackrel{\smile}{\boldsymbol{\Sigma}}\bold{W}^\top) = \mathcal{N}(\bold{y}|\bold{m},\bold{S})\end{aligned}

•

이것으로부터 log marginal likelihood를 쉽게 계산할 수있다. 

A general calculus for linear Gaussian systems

Moment and canonical parameterization

•

moment 형식이나 canonical (information) 형식에서 가우시안 분포를 표현할 수 있다. moment 형식에서 다음을 갖는다.

\phi(\bold{x};p,\boldsymbol{\mu},\boldsymbol{\Sigma}) = p\times \exp\left( -{1\over2}(\bold{x}-\boldsymbol{\mu})^\top\boldsymbol{\Sigma}^{-1}(\bold{x}-\boldsymbol{\mu})\right)

•

여기서 p=(2π)−n/2∣Σ∣−12p = (2\pi)^{-n/2}|\boldsymbol{\Sigma}|^{-{1\over2}}p=(2π)−n/2∣Σ∣−21​는 ∫xϕ(x;p,μ,Σ)=1\int_\bold{x} \phi(\bold{x};p,\boldsymbol{\mu},\boldsymbol{\Sigma}) = 1∫x​ϕ(x;p,μ,Σ)=1를 보장하는 정규화 상수이다.(nnn은 x\bold{x}x의 차원이다.) 

•

2차 형식을 펼치고 항목을 모아서 canonical 형식을 얻을 수 있다.

\begin{aligned} \phi(\bold{x};g,\bold{h},\bold{K}) &= \exp \left(g + \bold{x}^\top \bold{h} - {1\over2}\bold{x}^\top\bold{Kx} \right) \\&= \exp\left(g + \sum_i h_ix_i - {1\over2} \sum_i\sum_k K_{ij}x_ix_j \right) \end{aligned}

•

여기서

\begin{aligned} \bold{K} &= \boldsymbol{\Sigma}^{-1} \\ \bold{h} &= \boldsymbol{\Sigma}^{-1}\boldsymbol{\mu} \\ g &= \log p-{1\over2}\boldsymbol{\mu}^\top\bold{K}\boldsymbol{\mu}\end{aligned}

•

K\bold{K}K는 정밀도 행렬이라 부른다.

•

potential이 확률 분포일 필요는 없다는 것에 유의하라. 그리고 정규화(적분이 1이 되도록)가 가능하지 않아도 된다. 증거의 likelihood를 계산할 수 있도록 상수 항(ppp 또는 qqq)을 추적한다.

Multiplication and division

•

가우시안의 경우에 곱셈과 나눗셈을 canonical 형식을 사용하여 다음처럼 정의한다. 

◦

ϕ1(x1,...,xk;g1,h1,K1)\phi_1(x_1,...,x_k;g_1,\bold{h}_1,\bold{K}_1)ϕ1​(x1​,...,xk​;g1​,h1​,K1​)과 ϕ2(xk+1,...,xn;g2,h2,K2)\phi_2(x_{k+1},...,x_n;g_2,\bold{h}_2,\bold{K}_2)ϕ2​(xk+1​,...,xn​;g2​,h2​,K2​)를 곱하려면 적절한 차원을 추가하여 둘을 동일한 영역 x1,...,xnx_1,...,x_nx1​,...,xn​까지 확장한 다음 적절한 차원에 0을 추가하여 다음을 계산한다.

(g_1, \bold{h}_1, \bold{K}_1) *(g_2,\bold{h}_2,\bold{K}_2) = (g_1+g_2,\bold{h}_1+\bold{h}_2,\bold{K}_1+\bold{K}_2)

•

나눗셈은 다음처럼 정의한다.

(g_1,\bold{h}_1,\bold{K}_1)/(g_2,\bold{h}_2,\bold{K}_2) = (g_1-g_2,\bold{h}_1-\bold{h}_2,\bold{K}_1-\bold{K}_2)

Marginalization

•

ϕW\phi_WϕW​를 변수의 집합 WWW에 대해 potential로 둔다. 변수들의 부분집합 V⊂WV \subset WV⊂W에 대한 potential을 marginalizing을 통해 계산할 수 있다. ϕV=∑W\VϕW\phi_V = \sum_{W \backslash V} \phi_WϕV​=∑W\V​ϕW​라 표기하고 

\bold{x} = \begin{pmatrix} \bold{x}_1 \\ \bold{x}_2 \end{pmatrix}, \bold{h} = \begin{pmatrix} \bold{h}_1 \\ \bold{h}_2 \end{pmatrix}, \bold{K} = \begin{pmatrix} \bold{K}_{11} & \bold{K}_{12} \\ \bold{K}_{21} & \bold{K}_{22} \end{pmatrix}

•

n1n_1n1​ 차원의 x1\bold{x}_1x1​과 n2n_2n2​ 차원의 x2\bold{x}_2x2​에 대해 다음을 보일 수 있다.

\int_{\bold{x}_1} \phi(\bold{x}_1,\bold{x}_2;g,\bold{h},\bold{K}) = \phi(\bold{x}_2;\hat{g},\hat{\bold{h}},\hat{\bold{K}})

•

여기서

\begin{aligned}\hat{g} &= g + {1\over2}(n_1\log(2\pi) - \log|\bold{K}_{11}| + \bold{h}_1^\top\bold{K}_{11}^{-1}\bold{h}_1) \\ \hat{\bold{h}} &= \bold{h}_2 - \bold{K}_{21}\bold{K}_{11}^{-1}\bold{h}_1 \\ \hat{\bold{K}} &= \bold{K}_{22} - \bold{K}_{21} \bold{K}_{11}^{-1}\bold{K}_{12}\end{aligned}

Conditioning on evidence

•

(x,y)(\bold{x},\bold{y})(x,y)에 정의된 potential을 고려하자. 값 y\bold{y}y를 관찰한다고 가정하자. 새로운 potential은 다음의 차원이 축소된 객체로 주어진다.

\begin{aligned}\phi^*(\bold{x}) &= \exp \left[ g + \begin{pmatrix}\bold{x}^\top & \bold{y}^\top \end{pmatrix}\begin{pmatrix} \bold{h}_X \\ \bold{h}_Y\end{pmatrix} - {1\over2}\begin{pmatrix} \bold{x}^\top & \bold{y}^\top \end{pmatrix}\begin{pmatrix} \bold{K}_{XX} & \bold{K}_{XY} \\ \bold{K}_{YX} & \bold{K}_{YY} \end{pmatrix}\begin{pmatrix} \bold{x} \\ \bold{y} \end{pmatrix} \right] \\ &= \exp \left[\left(g + \bold{h}_Y^\top \bold{y} - {1\over2}\bold{y}^\top \bold{K}_{YY}\bold{y} \right)+ \bold{x}^\top(\bold{h}_X - \bold{K}_{XY}\bold{y}) - {1\over2}\bold{x}^\top\bold{K}_{XX}\bold{x} \right] \end{aligned} \\\tag{2.143-144}

Converting a linear-Gaussian CPD to a canonical potential

•

마지막으로 초기 potential을 어떻게 만드는지를 논의한다. 방향성(directed) 가우시안 graphical 모델로 시작한다고 가정한다. 특히 선형 가우시안 conditional probability distribution(CPD)를 가진 노드를 고려한다.

\begin{aligned}p(\bold{x}|\bold{u}) &= c \exp \left[-{1\over2} ((\bold{x}-\boldsymbol{\mu}-\bold{B}^\top\bold{u})^\top\boldsymbol{\Sigma}^\top(\bold{x}-\boldsymbol{\mu}-\bold{B}^\top\bold{u})) \right] \\ &= \exp \left[-{1\over2}\begin{pmatrix}\bold{x} & \bold{u}\end{pmatrix}\begin{pmatrix}\boldsymbol{\Sigma}^{-1} & -\boldsymbol{\Sigma}^{-1}\bold{B}^\top \\ -\bold{B}\boldsymbol{\Sigma}^{-1} & \bold{B}\boldsymbol{\Sigma}^{-1}\bold{B}^\top\end{pmatrix}\begin{pmatrix}\bold{x} \\ \bold{u}\end{pmatrix}+\begin{pmatrix}\bold{x} & \bold{u}\end{pmatrix}\begin{pmatrix}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu} \\ -\bold{B}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}\end{pmatrix}-{1\over2}\boldsymbol{\mu}^{\top}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu} + \log c\right] \end{aligned}

•

여기서 c=(2π)−n/2∣Σ∣−12c = (2\pi)^{-n/2}|\boldsymbol{\Sigma}|^{-{1\over2}}c=(2π)−n/2∣Σ∣−21​이다. 따라서 canonical(표준) 파라미터를 다음과 같이 설정할 수 있다.

\begin{aligned} g &= -{1\over2}\boldsymbol{\mu}^\top\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu} - {n \over 2} \log (2\pi)-{1\over2} \log|\boldsymbol{\Sigma}| \\ \bold{h} &= \begin{pmatrix} \boldsymbol{\Sigma}^{-1}\boldsymbol{\mu} \\ -\bold{B}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}\end{pmatrix} \\ \bold{K} &= \begin{pmatrix} \boldsymbol{\Sigma}^{-1}& -\boldsymbol{\Sigma}^{-1}\bold{B}^\top \\ -\bold{B}\boldsymbol{\Sigma}^{-1} & \bold{B}\boldsymbol{\Sigma}^{-1}\bold{B}^\top \end{pmatrix} =\begin{pmatrix} \bold{I} \\ -\bold{B} \end{pmatrix} \boldsymbol{\Sigma}^{-1}\begin{pmatrix} \bold{I} & -\bold{B} \end{pmatrix} \end{aligned}

•

특히 σ−1=1/σ2,B=b,n=1\sigma^{-1} = 1/\sigma^2, B = b, n=1σ−1=1/σ2,B=b,n=1이면 위의 결과는 다음과 같다.

\begin{aligned} g &= {-\mu^2\over2\sigma^2}-{1\over2} \log(2\pi\sigma^2) \\ \bold{h} &= {\mu \over \sigma^2} \begin{pmatrix} 1 \\ -\bold{b}\end{pmatrix} \\ \bold{K} &= {1\over \sigma}\begin{pmatrix} 1 & -\bold{b}^\top \\ -\bold{b} & \bold{bb}^\top\end{pmatrix}\end{aligned}

Example: Product of Gaussians

•

위의 결과의 응용으로 두 가우시안의 (비정규화된) 곱을 다음처럼 유도할 수 있다.

\mathcal{N}(\bold{x}|\boldsymbol{\mu}_1,\boldsymbol{\Sigma}_1) \times \mathcal{N}(\bold{x}|\boldsymbol{\mu}_2,\boldsymbol{\Sigma}_2) \propto \mathcal{N}(\bold{x}|\boldsymbol{\mu}_3,\boldsymbol{\Sigma}_3)

•

여기서

\begin{aligned} \boldsymbol{\Sigma}_3 &= (\boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\Sigma}_2^{-1})^{-1} \\ \boldsymbol{\mu}_3 &= \boldsymbol{\Sigma}_3(\boldsymbol{\Sigma}_1^{-1}\boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_2^{-1}\boldsymbol{\mu}_2)\end{aligned}

•

posterior 정밀도는 개별 정밀도의 합이고 posterior 평균은 개별 평균의 정밀도-가중 결합임을 볼 수 있다. 또한 이 결과를 하나의 행렬 역만 요구하는 다음과 같은 방법으로 재작성할 수 있다. 

\begin{aligned} \boldsymbol{\Sigma}_3 &= \boldsymbol{\Sigma}_1(\boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2)^{-1}\boldsymbol{\Sigma}_2 \\ \boldsymbol{\mu}_3 &= \boldsymbol{\Sigma}_2(\boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2)^{-1}\boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_1(\boldsymbol{\Sigma}_1+\boldsymbol{\Sigma}_2)^{-1}\boldsymbol{\mu}_2\end{aligned}

•

스칼라의 경우에 다음이 된다.

\mathcal{N}(x|\mu_1,\sigma_1^2)\mathcal{N}(x|\mu_2,\sigma_2^2) \propto \mathcal{N}\left(x|{\mu_1\sigma_2^2 + \mu_2\sigma_1^2 \over \sigma_1^2 + \sigma_2^2},{\sigma_1^2\sigma_2^2 \over \sigma_1^2 + \sigma_2^2} \right)

참조

•

Probabilistic Machine Learning: Advanced Topics