Conjugate Prior
•
베이즈룰에서 prior, posterior, likelihood는 다음의 관계를 갖는다.
•
여기서 posterior와 piror가 같은 parameterized family ( 일 때, prior 를 likelihood 의 켤레(conjugate) prior라고 한다.
◦
다른 말로 는 베이즈 업데이트에 대해 닫혀 있다.
◦
만일 가 지수족(exponential family)라면 계산은 닫힌 형식으로 진행 가능하다.
•
켤레 prior는 해석하기 쉽고, 계산하기 쉽지만, 대부분의 모델은 likelihood와 켤레를 이루는 지수족에 속하는 prior가 없거나, 있더라도 가정이 너무 제한적일 수 있다.
Maximum entropy prior
•
uninformative prior를 정의하는 자연스러운 방법은 상태 공간에서 임의의 특정한 값에 최소한의 약속을 만드는 maximum entropy를 사용하는 것이다. 이것은 Laplace의 principle of insufficient reason의 형식화이다.
◦
이것은 하나의 prior를 다른 prior 보다 선호할 이유가 없으면 ‘flat’한 것을 고른다고 주장한다.
◦
예컨대 비율 의 베르누이 분포의 경우 최대 엔트로피 prior는 직관적으로 균등 분포 이다.
•
그러나 어떤 경우에 확률 변수 에 대한 정보를 알고 있고, 이 제약조건과 일치하는 prior를 원한다. 그렇지 않으면 최대 엔트로피가 되기를 원한다.
◦
더 정확하게 특정한 feature나 함수의 기대값 이 어떤 알려진 수량 와 일치하는 제약조건 하에서 최대 엔트로피를 갖는 분포 를 찾기 원한다고 가정한다. 이것을 maxent prior라고 한다.
Jeffreys prior
•
를 prior 의 확률 변수라고 하자. 를 의 어떤 역 변환이라 하자. 이 함수 에 불변인 prior를 선택하여 posterior가 모델 파라미터화에 의존하지 않게 하려고 한다.
◦
예컨대 비율 파라미터 의 베르누이 분포를 고려하자. Alice가 데이터 에 binomial(이항) likelihood를 사용하여 를 계산한다고 가정하자.
◦
이제 Bob이 같은 likelihood와 data를 사용하지만 확률 파라미터 로 모델을 파라미터화 한다고 하자. 그는 change of variables formula을 사용하여 Alice의 prior를 로 변환하고 를 계산한다. 그 다음 파라미터화로 되돌리면 그는 Alice와 같은 결과를 얻게 된다.
•
이 목표를 Jeffreys prior를 사용하여 달성할 수 있다.
◦
1차원에서 Jeffreys prior는 로 주어진다. 여기서 는 Fisher information이다.
◦
다차원에서 Jeffreys prior는 의 형식을 갖는다. 여기서 는 Fisher information matrix이다.
Invariant prior
•
문제에 관한 ‘objective’ prior 지식을 가지면 이것을 불변량의 형식으로 prior에 인코딩할 수 있다.
•
location-scale family는 location 와 scale 로 파라미터화된 확률 분포의 family이다. 가 이 family의 확률변수이면 도 같은 family의 확률 변수이다.
Translation-invariant priors
•
위치 파라미터 를 추론할 때, 구간에 할당된 확률 질량이 와 같이 같은 width의 다른 shifted 구간에 할당된 확률 질량과 동일하다는 속성을 만족하는 translation-invariant prior를 사용하는 것이 직관적으로 합리적이다. 즉,
•
이것은 다음을 이용해서 달성할 수 있다.
•
이것은 알려지지 않은 평균 와 고정된 분산의 가우시안에 대한 Jeffreys prior와 같다.
Scale-invariant prior
•
scale 파라미터 를 추론할 때, 임의의 구간 에 할당된 확률 질량이 다른 구간 에 (여기서 ) 할당된 것과 같은 속성을 만족하는 scale-invariant prior를 사용하기 원한다. 즉,
•
이것은 다음을 사용하여 달성할 수 있다.
•
이것은 고정된 평균 와 알려지지 않은 scale 의 가우시안에 대한 Jeffreys prior와 같다.
Reference prior
•
noninformative prior를 정의하는 한 가지 방법은 데이터셋의 평균을 구했을 때 가능한 posterior로부터 최대한 멀리 있는 분포로 정의하는 것이다. 이것은 reference prior의 기본 아이디어이다.
◦
더 정확하게 가 posterior와 prior 사이의 기대 KL divergence를 최대화하면 reference prior라고 할 수 있다.
•
여기서 . 이것은 상호 정보량 를 최대화하는 것과 같다.
•
데이터셋에 대해 적분을 제거할 수 있는 방법은 다음과 같다.
•
여기서 이라는 사실을 이용했다.
•
1차원에서 해당하는 prior가 Jeffreys prior와 같다는 것을 보일 수 있다. 고차원에서 체인 룰을 사용하여 한 번에 하나 파라미터에 대해 reference prior를 계산할 수 있다. 그러나 계산적으로 까다로울 수 있다.