수학/ 가우시안 분포 응용

서로 다른 가우시안의 혼합

•

만일 가우시안 분포를 따르는 2개의 센서가 존재하고, 이 2개의 센서를 조합하여 관측 결과를 얻으려고 한다면, 두 관측 결과를 가중치를 이용하여 선형 결합해서 최종 결과를 얻을 수 있다. 아래 흐름을 확장하면 2개가 아니라 NNN개의 결과에 대한 조합도 가능함을 알 수 있다.

•

우선 두 센서의 정밀도에 차이가 있을 수 있으므로, 그 정밀도를 기준으로 가중 평균을 내는 것이 합리적이다. 정밀도는 분산의 역수이므로, 두 센서의 정밀도는 다음과 같이 정의할 수 있다. (센서의 분산은 제조사에서 알려준다고 가정하자)

\lambda_1 = {1 \over \sigma_1^2}, \lambda_2 = {1 \over \sigma_2^2}

•

보통 1번의 측정 결과만 이용하지 않고, nnn번의 측정 결과를 이용하게 되는데, 두 센서가 각각 다른 측정 횟수를 가질 수 있다고 한다면, 정밀도는 다음과 같이 정의될 수 있다.

\lambda_1 = {n_1 \over \sigma_1^2}, \lambda_2 = {n_2 \over \sigma_2^2}

•

두 센서의 측정 결과는 각 센서의 측정 결과에 대한 평균으로 정의할 수 있다.

\mu_1 = {1 \over n_1} \sum_{i=1}^{n_1} y_i^{(1)}, \mu_2 = {1 \over n_2} \sum_{i=1}^{n_2} y_i^{(2)}

•

각 센서의 결과에 각 센서의 정밀도를 가중치로 곱하고, 그것을 각 센서의 정밀도의 합으로 나눠서 전체 측정 결과의 평균을 얻는다. (각 센서 정밀도의 합으로 나누는 것은 가중 평균을 계산할 때, 가중치의 합으로 결과를 나눔으로써 가중치의 합이 1이 되도록 조정하는 것을 의미한다.)

\mu_{\text{total}} = {\lambda_1 \cdot \mu_1 + \lambda_2 \cdot \mu_2 \over \lambda_1 + \lambda_2}

•

분산은 정밀도의 역수이고, 전체 정밀도는 각 센서의 정밀도의 합으로 정의할 수 있다.

\lambda_{\text{total}} = \lambda_1 + \lambda_2 \\ \sigma_{\text{total}}^2 = {1 \over \lambda_{\text{total}}} = {1 \over \lambda_1 + \lambda_2}

•

전체 평균과 분산을 구했으므로, 전체에 대한 가우시안 분포를 정의할 수 있다.

\mathcal{N}_{\text{total}}(y|\mu_{\text{total}}, \sigma_{\text{total}}^2)

노이즈에 대한 가우시안

•

만일 어떤 가우시안 분포를 따르는 측정 결과에 노이즈가 끼어 있다면, 그 측정 결과에 대한 분포를 yyy로 놓고, 노이즈가 없었을 경우의 분포를 가우시안 잠재 분포 zzz로 두면, 두 분포가 노이즈에 의해 선형 관계를 갖는다고 할 수 있고, 이를 바탕으로 측정 결과에 대해 노이즈가 제거된 결과를 얻을 수 있다.

•

일반적으로 노이즈가 낀 분포 yyy와 잠재 분포 zzz에 대해 다음과 같은 관계를 정의한다. 

◦

여기서 zzz는 평균 μ0\mu_0μ0​, 분산 Σ0\Sigma_0Σ0​인 노이즈가 없는 분포를 의미하고, 

◦

측정된 결과 yyy는 zzz에 노이즈텀 ϵ\epsilonϵ이 낀 것으로 정의한다. 

◦

노이즈텀 ϵ\epsilonϵ은 가우시안 분포를 따르며, 평균이 0이고 분산이 Σy\Sigma_yΣy​인 것으로 정의한다.

z \sim \mathcal{N}(\mu_0, \Sigma_0) \\ y = z + \epsilon \\ \epsilon \sim \mathcal{N}(0, \Sigma_y)

•

위와 같이 정의하면, yyy는 zzz에 대해 노이즈가 추가된 것이므로 다음과 같이 조건부 분포를 정의할 수 있다. 

◦

여기서 λ\lambdaλ는 정밀도로 λ=1/σ2\lambda = 1 / \sigma^2λ=1/σ2

p(y|z) = \mathcal{N}(y|z,\lambda_y^{-1})

•

이를 이용하여 사전 분포 p(z)p(z)p(z)는 다음과 같이 정의할 수 있다. 

◦

여기서 μ0,λ0\mu_0, \lambda_0μ0​,λ0​는 알려진 값이 아니기 때문에 임의로 조정하는 값이다.

p(z) = \mathcal{N}(z|\mu_0, \lambda_{0}^{-1})

•

NNN번의 측정을 하고, 그 결과 —평균과 분산— 를 바탕으로 노이즈 없는 분포 zzz를 계산하기 위해, 측정 결과에 대한 조건부 분포 p(z∣y1,...,yN,σ2)p(z|y_1,...,y_N, \sigma^2)p(z∣y1​,...,yN​,σ2)를 다음처럼 정의할 수 있다.

p(z|y) = \mathcal{N}(z|\mu_N, \lambda_N^{-1})

•

이 분포의 분산은 정밀도의 역수로 표현됐는데, 정밀도 λN\lambda_NλN​은 다음과 같이 잠재분포 zzz의 정밀도 λ0\lambda_0λ0​에 NNN번 측정 결과의 정밀도를 더한 것으로 정의된다.

\lambda_N = \lambda_0 + N \lambda_y

•

위 분포의 평균은 비슷하게 잠재분포 zzz의 평균과 측정 결과의 평균에 정밀도를 가중치로 적용하여 합한 후, 전체 정밀도로 나눈 것으로 정의된다. 

◦

이는 가중 평균을 계산할 때, 가중치의 합으로 나눔으로써 가중치가 1이 되도록 하는 효과를 갖게 하기 위함이다.

\mu_N = {N \lambda_y \bar{y} + \lambda_0 \mu_0 \over \lambda_N} = {N \lambda_y \over N \lambda_y + \lambda_0} \bar{y} + {\lambda_0 \over N \lambda_y + \lambda_0} \mu_0

•

이 수식에 대해 λ0<λy\lambda_0 < \lambda_yλ0​<λy​인 경우 μN\mu_NμN​은 관측된 데이터에 가까워지고,  λ0>λy\lambda_0 > \lambda_yλ0​>λy​이면 μN\mu_NμN​은 μ0\mu_0μ0​에 가까워지게 된다. 고로 λ0,μ0\lambda_0, \mu_0λ0​,μ0​의 값을 적절하게 조절하여 사용한다.

•

사후 정밀도가 아닌 사후 분산의 관점에서 결과를 다음과 같이 다시 작성할 수 있다.

◦

여기서 D\mathcal{D}D는 관찰된 데이터 포인트 모음을 나타내고, 

◦

τ02=1/λ0\tau_0^2 = 1 / \lambda_0τ02​=1/λ0​는 사전 분산이고, τN2=1/λN\tau_N^2 = 1 / \lambda_NτN2​=1/λN​는 사후 분산이다. 

◦

이 식에서 σ\sigmaσ가 아니라 τ\tauτ를 썼는데, 둘다 표준편차의 기호로 사용한다고 함

\begin{aligned} p(z|\mathcal{D}, \sigma^2) &= \mathcal{N}(z|\mu_N, \tau_N^2) \\ \tau_N^2 &= {1 \over {N\over \sigma^2} + {1 \over \tau_0^2}} = {\sigma^2 \tau_0^2 \over N \tau_0^2 + \sigma^2} \\ \mu_N &= \tau_N^2 \left( {\mu_0 \over \tau_0^2} + {N \bar{y} \over \sigma^2} \right) = {\sigma^2 \over N \tau_0^2 + \sigma^2} \mu_0 + {N \tau_0^2 \over N \tau_0^2 + \sigma^2} \bar{y} \end{aligned}

신호 대 잡음비

•

Signal-to-Noise Ratio(SNR)로써 신호의 강도에 대한 잡음의 강도의 비율을 나타내는 지표가 있다. SNR은 다음과 같이 정의 된다.

◦

Σ0,μ0\Sigma_0, \mu_0Σ0​,μ0​는 모두 사용자가 사전에 설정해야 하는 값이다.

\text{SNR} \triangleq {\mathbb{E}[Z^2] \over \mathbb{E}[\epsilon^2]} = {\Sigma_0 + \mu_0^2 \over \Sigma_y}

참고

•

Probabilistic Machine Learning: An Introduction