Search
Duplicate

수학/ Conjugate Prior, Maximum Entropy Prior, Jeffreys Prior, Invariant Prior, Reference Prior

Conjugate Prior

베이즈룰에서 prior, posterior, likelihood는 다음의 관계를 갖는다.
posteriorprior×likelihood\text{posterior} \propto \text{prior} \times \text{likelihood}
여기서 posterior와 piror가 같은 parameterized family (p(θ)F,p(θD)Fp(\boldsymbol{\theta}) \in \mathcal{F}, p(\boldsymbol{\theta}|\mathcal{D}) \in \mathcal{F} 일 때, prior p(θ)p(\boldsymbol{\theta})를 likelihood p(Dθ)p(\mathcal{D}|\boldsymbol{\theta})의 켤레(conjugate) prior라고 한다.
다른 말로 F\mathcal{F}는 베이즈 업데이트에 대해 닫혀 있다.
만일 F\mathcal{F}가 지수족(exponential family)라면 계산은 닫힌 형식으로 진행 가능하다.
켤레 prior는 해석하기 쉽고, 계산하기 쉽지만, 대부분의 모델은 likelihood와 켤레를 이루는 지수족에 속하는 prior가 없거나, 있더라도 가정이 너무 제한적일 수 있다.

Maximum entropy prior

uninformative prior를 정의하는 자연스러운 방법은 상태 공간에서 임의의 특정한 값에 최소한의 약속을 만드는 maximum entropy를 사용하는 것이다. 이것은 Laplace의 principle of insufficient reason의 형식화이다.
이것은 하나의 prior를 다른 prior 보다 선호할 이유가 없으면 ‘flat’한 것을 고른다고 주장한다.
예컨대 비율 θ[0,1]\theta \in [0,1]의 베르누이 분포의 경우 최대 엔트로피 prior는 직관적으로 균등 분포 p(θ)=Beta(θ1,1)p(\theta) = \text{Beta}(\theta|1,1)이다.
그러나 어떤 경우에 확률 변수 θ\boldsymbol{\theta}에 대한 정보를 알고 있고, 이 제약조건과 일치하는 prior를 원한다. 그렇지 않으면 최대 엔트로피가 되기를 원한다.
더 정확하게 특정한 feature나 함수의 기대값 fk(θ)f_k(\boldsymbol{\theta})이 어떤 알려진 수량 FkF_k와 일치하는 제약조건 하에서 최대 엔트로피를 갖는 분포 p(θ)p(\boldsymbol{\theta})를 찾기 원한다고 가정한다. 이것을 maxent prior라고 한다.

Jeffreys prior

θ\theta를 prior pθ(θ)p_\theta(\theta)의 확률 변수라고 하자. ϕ=f(θ)\phi = f(\theta)θ\theta의 어떤 역 변환이라 하자. 이 함수 ff에 불변인 prior를 선택하여 posterior가 모델 파라미터화에 의존하지 않게 하려고 한다.
예컨대 비율 파라미터 θ\theta의 베르누이 분포를 고려하자. Alice가 데이터 D\mathcal{D}에 binomial(이항) likelihood를 사용하여 p(θD)p(\theta|\mathcal{D})를 계산한다고 가정하자.
이제 Bob이 같은 likelihood와 data를 사용하지만 확률 파라미터 ϕ=θ1θ\phi = {\theta \over 1-\theta}로 모델을 파라미터화 한다고 하자. 그는 change of variables formula을 사용하여 Alice의 prior를 p(ϕ)p(\phi)로 변환하고 p(ϕD)p(\phi|\mathcal{D})를 계산한다. 그 다음 θ\theta 파라미터화로 되돌리면 그는 Alice와 같은 결과를 얻게 된다.
이 목표를 Jeffreys prior를 사용하여 달성할 수 있다.
1차원에서 Jeffreys prior는 p(θ)F(θ)p(\theta) \propto \sqrt{F(\theta)}로 주어진다. 여기서 FF는 Fisher information이다.
다차원에서 Jeffreys prior는 p(θ)detF(θ)p(\boldsymbol{\theta}) \propto \sqrt{\det \bold{F}(\boldsymbol{\theta})}의 형식을 갖는다. 여기서 F\bold{F}는 Fisher information matrix이다.

Invariant prior

문제에 관한 ‘objective’ prior 지식을 가지면 이것을 불변량의 형식으로 prior에 인코딩할 수 있다.
location-scale family는 location μ\mu와 scale σ\sigma로 파라미터화된 확률 분포의 family이다. xx가 이 family의 확률변수이면 y=a+bxy = a+bx도 같은 family의 확률 변수이다.

Translation-invariant priors

위치 파라미터 μ\mu를 추론할 때, [A,B][A,B] 구간에 할당된 확률 질량이 [Ac,Bc][A-c,B-c]와 같이 같은 width의 다른 shifted 구간에 할당된 확률 질량과 동일하다는 속성을 만족하는 translation-invariant prior를 사용하는 것이 직관적으로 합리적이다. 즉,
AcBcp(μ)dμ=ABp(μ)dμ\int_{A-c}^{B-c} p(\mu)d\mu = \int_A^B p(\mu) d\mu
이것은 다음을 이용해서 달성할 수 있다.
p(μ)1p(\mu) \propto 1
이것은 알려지지 않은 평균 μ\mu와 고정된 분산의 가우시안에 대한 Jeffreys prior와 같다.

Scale-invariant prior

scale 파라미터 σ\sigma를 추론할 때, 임의의 구간 [A,B][A,B]에 할당된 확률 질량이 다른 구간 [A/c,B/c][A/c,B/c]에 (여기서 c>0c>0) 할당된 것과 같은 속성을 만족하는 scale-invariant prior를 사용하기 원한다. 즉,
A/cB/cp(σ)dσ=ABp(σ)dσ\int_{A/c}^{B/c} p(\sigma)d\sigma = \int_A^B p(\sigma)d\sigma
이것은 다음을 사용하여 달성할 수 있다.
p(σ)1/σp(\sigma) \propto 1 /\sigma
이것은 고정된 평균 μ\mu와 알려지지 않은 scale σ\sigma의 가우시안에 대한 Jeffreys prior와 같다.

Reference prior

noninformative prior를 정의하는 한 가지 방법은 데이터셋의 평균을 구했을 때 가능한 posterior로부터 최대한 멀리 있는 분포로 정의하는 것이다. 이것은 reference prior의 기본 아이디어이다.
더 정확하게 p(θ)p(\boldsymbol{\theta})가 posterior와 prior 사이의 기대 KL divergence를 최대화하면 reference prior라고 할 수 있다.
p(θ)=arg maxp(θ)Dp(D)DKL(p(θD)p(θ))dDp^*(\boldsymbol{\theta}) = \argmax_{p(\boldsymbol{\theta})} \int_\mathcal{D} p(\mathcal{D})D_{KL}(p(\boldsymbol{\theta}|\mathcal{D})\|p(\boldsymbol{\theta}))d\mathcal{D}
여기서 p(D)=p(Dθ)p(θ)dθp(\mathcal{D}) = \int p(\mathcal{D}|\boldsymbol{\theta})p(\boldsymbol{\theta})d\boldsymbol{\theta}. 이것은 상호 정보량 I(θ,D)\mathbb{I}(\boldsymbol{\theta},\mathcal{D})를 최대화하는 것과 같다.
데이터셋에 대해 적분을 제거할 수 있는 방법은 다음과 같다.
p(D)p(θD)logp(θD)p(θ)=p(θ)p(Dθ)logp(Dθ)p(D)=Eθ[DKL(p(Dθ)p(D))]\begin{aligned} \int p(\mathcal{D}) \int p(\boldsymbol{\theta}|\mathcal{D})\log{p(\boldsymbol{\theta}|\mathcal{D}) \over p(\boldsymbol{\theta})} &= \int p(\boldsymbol{\theta}) \int p(\mathcal{D}|\boldsymbol{\theta}) \log {p(\mathcal{D}|\boldsymbol{\theta}) \over p(\mathcal{D})} \\&= \mathbb{E}_{\boldsymbol{\theta}} [D_{KL}(p(\mathcal{D}|\boldsymbol{\theta})\|p(\mathcal{D}))] \end{aligned}
여기서 p(θD)p(θ)=p(Dθ)p(D){p(\boldsymbol{\theta}|\mathcal{D}) \over p(\boldsymbol{\theta})}= {p(\mathcal{D}|\boldsymbol{\theta}) \over p(\mathcal{D})}이라는 사실을 이용했다.
1차원에서 해당하는 prior가 Jeffreys prior와 같다는 것을 보일 수 있다. 고차원에서 체인 룰을 사용하여 한 번에 하나 파라미터에 대해 reference prior를 계산할 수 있다. 그러나 계산적으로 까다로울 수 있다.

참고