Model Checking
•
베이지안 추론과 decision making은 모델링 가정이 올바른 경우에만 최적이다. 따라서 관찰한 데이터가 모델이 정확할 경우 예상할 수 있는 데이터와 ‘typical’지 확인하려고 한다. 이것을 model checking이라 한다.
Posterior predictive checks
•
후보 모델 이 좋은지 평가하기 위해 어떤 데이터 를 관찰한 후에 이 모델을 사용하여 posterior 예측 분포를 도출하여 합성(synthetic) 미래 데이터 셋을 생성하는 것을 상상할 수 있다.
•
이것은 모델의 ‘plausible hallucinations(그럴듯한 할루시네이션)’을 표현한다. 모델의 품질을 평가하기 위해 관찰된 데이터 가 모델의 할루시네이션과 비교하여 얼마나 ‘typical’한지 계산할 수 있다.
◦
이 비교를 수행하기 위해 하나 이상의 스칼라 검정 통계량(test statistics), 을 생성하고 실제 데이터의 검정 통계량 과 비교한다. 특정 모델을 사용하여 데이터의 모든 측면을 포착할 수 없으므로 이 통계량은 관심 있는 feature를 측정해야 한다.
◦
서로 다른 에 대한의 분포와 의 값 사이에 사이의 큰 차이가 있으면 해당 모델이 좋은 모델이 아니라는 것을 의미한다. 이 접근을 posterior predictive check라고 한다.
Bayesian p-values
•
관찰된 데이터의 어떤 검정 통계량 이 예측 분포의 왼쪽이나 오른쪽 꼬리에 나타나면 모델에서는 그럴 가능성이 매우 낮다. (실제 데이터의 극단적인 값이 모델에서는 잘 재현되지 않는것.)
◦
이것을 Bayesian p-value 또는 posterior predictive p-value를 이용해서 정량화 할 수 있다.
•
여기서 은 사용 중인 모델을 나타내고 는 가상의(hypothetical) 미래 데이터셋이다. 반면 전통적인 또는 빈도주의의 p-value는 다음과 같이 정의된다.
•
여기서 은 null 가설을 표현한다. 핵심 차이는 베이지안은 관찰된 것을 데이터에 모델을 조건화한 후에 예상하는 것과 비교하는 반면, 빈도주의자들은 관찰된 것을 데이터와 무관한 널 가설의 샘플링 분포와 비교한다는 것이다.
•
다음처럼 몬테 카를로 적분을 사용하여 베이지안 p-value을 근사할 수 있다.
•
에 대한 극단값 (예 0이나 1에 가까운)은 검정 통계 테스트를 통해 평가 할 때 관찰된 데이터가 모델에 발생할 가능성이 낮다는 것을 뜻한다. 그러나 가 모델의 충분 통계량이면 잘 추정될 가능성이 높으며 p-value는 0.5에 가까울 것이다.
•
데이터가 주어진 모델로부터 온 것인지 여부를 평가하려고 시도해서는 안 된다. 모델이 관심 있는 feature를 포착하는지 여부만 평가해야 한다.