Search
Duplicate

수학/ Empirical Bayes

Empirical Bayes

hierarchical Bayes를 데이터로부터 파라미터를 추론하는 방법에 대한 모델에서 posterior 추론은 계산적으로 도전적일 수 있다. 따라서 다음과 같이 계산적으로 편리한 근사를 할 수 있다.
우선 하이퍼파라미터 ξ^\hat{\boldsymbol{\xi}}의 점추정을 계산한 후에 결합 posterior p(θ,ξD)p(\boldsymbol{\theta},\boldsymbol{\xi}|\mathcal{D}) 대신 조건부 posterior p(θξ^,D)p(\boldsymbol{\theta}|\hat{\boldsymbol{\xi}}, \mathcal{D})을 계산한다.
하이퍼파라미터를 추정하기 위해 다음의 marginal likelihood를 최대화할 수 있다.
ξ^mml(D)=arg maxξp(Dξ)=arg maxξp(Dθ)p(θξ)dθ\hat{\boldsymbol{\xi}}_\text{mml}(\mathcal{D}) = \argmax_{\boldsymbol{\xi}} p(\mathcal{D}|\boldsymbol{\xi}) = \argmax_{\boldsymbol{\xi}} \int p(\mathcal{D}|\boldsymbol{\theta})p(\boldsymbol{\theta}|\boldsymbol{\xi})d\boldsymbol{\theta}
이 기법은 파라미터가 아니라 하이퍼파라미터를 최적화하기 때문에 type II maximum likelihood라고 한다. (신경망 맥락에서 이것은 evidence procedure라고 부른다).
ξ^\hat{\boldsymbol{\xi}}을 한 번 계산하면 일반적인 방법에서 posterior p(θξ^,D)p(\boldsymbol{\theta}|\hat{\boldsymbol{\xi}},\mathcal{D})를 계산할 수 있다.
데이터로부터 prior를 추정하기 때문에 이 접근을 Empirical Bayes(EB)라고 부른다.
이것은 prior를 데이터와 독립적으로 선택해야 한다는 원칙을 위반하지만 MAP 추정을 단일 레벨 모델 θD\boldsymbol{\theta} \to \mathcal{D}의 추론에 대한 근사로 본 것처럼 전체 계층적 베이지안 모델의 추론에 대한 계산적으로 저렴한 근사로 볼 수 있다.
더 많은 적분을 수행할 수록 아래와 같은 ‘more Bayesian’이 된다.
Method
Definition
Maximum likelihood
θ^=arg maxθp(Dθ)\hat{\boldsymbol{\theta}} = \argmax_{\boldsymbol{\theta}} p(\mathcal{D}|\boldsymbol{\theta})
MAP estimation
θ^=arg maxθp(Dθ)p(θξ)\hat{\boldsymbol{\theta}} = \argmax_{\boldsymbol{\theta}} p(\mathcal{D}|\boldsymbol{\theta})p(\boldsymbol{\theta}|\boldsymbol{\xi})
ML-II (empirical Bayes)
ξ^=arg maxξp(Dθ)p(θξ)dθ\hat{\boldsymbol{\xi}} = \argmax_{\boldsymbol{\xi}} \int p(\mathcal{D}|\boldsymbol{\theta})p(\boldsymbol{\theta}|\boldsymbol{\xi})d\boldsymbol{\theta}
MAP-II
ξ^=arg maxξp(Dθ)p(θξ)p(ξ)dθ\hat{\boldsymbol{\xi}} = \argmax_{\boldsymbol{\xi}} \int p(\mathcal{D}|\boldsymbol{\theta})p(\boldsymbol{\theta}|\boldsymbol{\xi})p(\boldsymbol{\xi})d\boldsymbol{\theta}
Full Bayes
p(θ,ξD)p(Dθ)p(θξ)p(ξ)p(\boldsymbol{\theta},\boldsymbol{\xi}|\mathcal{D}) \propto p(\mathcal{D}|\boldsymbol{\theta})p(\boldsymbol{\theta}|\boldsymbol{\xi})p(\boldsymbol{\xi})
ML-II는 일반적으로 파라미터 θ\boldsymbol{\theta} 보다 하이퍼파라미터 ξ\boldsymbol{\xi}가 더 적기 때문에 regular maximum likelihood 보다 과적합 되기 쉬움에 유의하라.

참고