Search
Duplicate

수학/ 점 추정(Point Estimate), 신뢰 구간(Credible Interval)

Point Estimate

점추정은 표본의 데이터에서 사용할 수 있는 정보를 기반으로 모집단 파라미터의 실제 값에 가까운 단일값을 말한다.
표본 평균, 표본 비율, MLE, MAP 등이 예가 된다.
점 추정 자체는 정확성이나 정밀도에 대한 정보를 제공하지 않기 때문에, 점추정의 신뢰성을 측정하기 위해 신뢰 구간 같은 척도가 사용된다.

Credible Interval

posterior의 평균이나 최빈값 같은 점 추정치를 계산한 다음 해당 추정치와 관련된 불확실성을 정량화하는 구간. (빈도주의의 confidence interval과는 다르다).
100(1α)100(1-\alpha)%의 신뢰구간을 영역 C=(,u)C = (\ell, u)로 정의하고(lower bound, upper bound), 이 영역에 posterior 확률 질량의 1α1-\alpha가 포함되게 한다.
예컨대 α=0.05\alpha = 0.05이면 95%의 신뢰 구간이 되고, 관찰된 데이터와 모델을 고려할 때 이 구간에 95%의 확률로 실제 파라미터 값을 포함하게 된다.
Cα(D)(,u):P(θuD)=1αC_\alpha(\mathcal{D}) \triangleq (\ell, u) : P(\ell \leq \theta \leq u|\mathcal{D}) = 1 - \alpha

Central Interval

posterior의 평균이나 최빈값 같은 값을 기준으로 대칭적인 배치된 구간 Central Interval이라고 한다. 일반적으로 분포의 각 꼬리에 (1α)/2(1-\alpha)/2 질량이 있는 구간이 설정된다.
만일 posterior가 알려진 함수 형식을 갖는 경우 posterior의 중심 구간은 =F1(α/2)\ell = F^{-1}(\alpha/2)u=F1(1α/2)u = F^{-1}(1-\alpha/2)를 이용해서 계산할 수 있다.
여기서 FF는 posterior의 누적 분포 함수(cdf) 이고 F1F^{-1}는 inverse cdf이다.
일반적으로 posterior의 inverse cdf를 계산하는 것이 어렵기 때문에, posteior의 사분위수에 대한 Monte Carlo 근사를 사용한다.
간단하게 SS 샘플을 정렬하고 정렬된 리스트에서 α/S\alpha / S의 위치에 나타나는 샘플을 찾는다. SS \to \infty에 따라 실제 사분위수에 수렴하게 된다.

Highest Posterior Density Interval

HPDI는 어떤 임계 밀도 이상의 확률을 갖는 점들의 집합을 의미한다.
우선 임계 밀도 pp^*는 다음처럼 정의 된다.
pp^*는 단순 값이 아니라 밀도이기 때문에, 만일 95%라면, 전체 분포의 95%가 모여있는 구간을 의미하게 된다.
1α=θ:p(θD)>pp(θD)dθ1 - \alpha = \int_{\theta:p(\theta|\mathcal{D}) > p^*} p(\theta|\mathcal{D}) d\theta
그 후 위의 임계값을 이용하여 HPDI를 다음처럼 정의한다.
Cα(D){θ:p(θD)p}C_\alpha(\mathcal{D}) \triangleq \{ \theta : p(\theta|\mathcal{D}) \geq p^* \}

참고