Search
Duplicate

수학/ Frequentist Statistics - FIM, Confidence Intervals

Frequentist Statistics

베이지안과 달리 파라미터 θ\boldsymbol{\theta}가 알려지지 않았지만 고정되어 있고 데이터 D\mathcal{D}가 무작위라는 관점의 접근을 Frequentist statistics, classical statistics, orthodox statistics라고 한다.
베이지안 접근은 데이터를 관찰하면서 현재 확률 분포를 지속적으로 업데이트하는 것이고, 빈도주의의 접근은 데이터를 관찰하면서 현실을 정확히 표현하는 어떤 이상적인 확률 분포를 찾는 것이고 할 수 있다.
빈도주의 통계에서 불확실성은 확률 변수의 posterior 분포가 아니라 추정기(estimator)의 샘플링 분포로 표현된다.
여기서 추정기는 어떤 관찰된 데이터가 주어지면 어떤 행동을 취해야 하는지를 지정하는 결정 절차이다. 행동 공간(action space)이 파라미터 벡터를 반환하는 파라미터 추정의 맥락에서 이것을 θ^=Θ^(D)\hat{\boldsymbol{\theta}} = \hat{\Theta}(\mathcal{D})라 표기한다.
추정기의 sampling distribution은 어떤 분포로부터 샘플링된 다양한 데이터셋에 추정기를 여러 번 적용하면 볼 수 있는 결과의 분포이다.
파라미터 추정의 맥락에서 이것은 랜덤 샘플 D\mathcal{D}에 의존하는 확률 변수로 간주되는 θ^\hat{\boldsymbol{\theta}}의 분포이다.
더 자세히 말하면, 어떤 실제 모델 p(xθ)p(\bold{x}|\boldsymbol{\theta}^*)에서 각각 크기가 NN인 다양한 데이터셋에서 SS개 샘플링하여 다음을 생성한다고 가정하자.
D~(s)={xnp(xnθ):n=1:N}\tilde{\mathcal{D}}^{(s)} = \{\bold{x}_n \sim p(\bold{x}_n|\boldsymbol{\theta}^*):n=1:N\}
간결성을 위해 이것을 D~(s)θ\tilde{\mathcal{D}}^{(s)} \sim \boldsymbol{\theta}^*라 표기한다. 이제 각 D~(s)\tilde{\mathcal{D}}^{(s)}에 추정기를 적용해서 추정치의 집합 {θ^(D~(s))}\{\hat{\boldsymbol{\theta}}(\tilde{\mathcal{D}}^{(s)})\}을 얻는다.
SS \to \infty로 감에 따라 이 집합에 의해 유도된 분포가 추정기의 표본 분포가 된다. 더 정확하게 다음이 성립한다.
p(Θ^(D~)=θD~θ)1Ss=1Sδ(θΘ^(D~(s)))p(\hat{\Theta}(\tilde{\mathcal{D}}) = \boldsymbol{\theta}|\tilde{\mathcal{D}} \sim \boldsymbol{\theta}^*) \approx {1\over S}\sum_{s=1}^S \delta(\boldsymbol{\theta} - \hat{\Theta}(\tilde{\mathcal{D}}^{(s)}))
이것을 종종 Monte Carlo로 근사한다. 어떤 경우에는 해석적으로 근사치를 계산할 수 있다.

Asymptotic normality of the sampling distribution of the MLE

대부분 일반적인 추정기는 MLE이다. 표본 크기가 커질 때 특정 모델에 대한 MLE의 샘플링 분포는 가우시안이 된다. 이것은 샘플링 분포의 asymptotic normality라고 부른다. 더 형식적으로 다음의 결과가 성립한다.
N(θ^θ)N(0,F(θ)1)\sqrt{N}(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}^*) \to \mathcal{N}(\bold{0}, \bold{F}(\boldsymbol{\theta}^*)^{-1})
여기서 F(θ)\bold{F}(\boldsymbol{\theta}^*)는 Fisher information matrix이고, θ\boldsymbol{\theta}^*는 추정기가 적용될 데이터 생성 절차의 파라미터이고 \to는 분포의 수렴을 의미한다.
피셔 정보 행렬은 log likelihood의 헤시안과 동등하다. 따라서 F(θ)\bold{F}(\boldsymbol{\theta}^*)는 실제 파라미터 값에서 log-likelihood 표면의 곡률의 정도를 측정한다.
따라서 이 정리를 다음과 같이 해석할 수 있다. 표본 크기가 무한으로 감에 따라 MLE의 샘플링 분포는 피셔 정보와 동일한 정밀도인 실제 파라미터를 중심으로 한 가우시안에 수렴한다.
따라서 유익한 (peaked) likelihood의 문제는 파라미터가 데이터에 의해 ‘잘 결정’되도록 보장하여 이 추정기가 다른 데이터셋 D~\tilde{\mathcal{D}}에 걸쳐 적용될 때 θ\boldsymbol{\theta}^* 주위에서 추정치 θ^\hat{\boldsymbol{\theta}}의 변동이 거의 없다.

Fisher information matrix

Fisher information matrix은 log likelihood 함수의 곡률과 연관되어 있다. 이것은 빈도주의 통계학에서 MLE의 샘플링 분포를 특성화하는데 대해 핵심 역할을 수행할 뿐만 아니라 최적화 베이지안 통계와 최적화에서도 사용된다.
score function은 파라미터 벡터에 관한 log likelihood의 gradient로 정의된다.
s(θ)θlogp(xθ)\bold{s}(\boldsymbol{\theta}) \triangleq \nabla_{\boldsymbol{\theta}} \log p(\bold{x}|\boldsymbol{\theta})
Fisher Information Matrix(FIM)은 score 함수의 공분산으로 정의된다.
F(θ)Exp(xθ)[θlogp(xθ)θlogp(xθ)]\bold{F}(\boldsymbol{\theta}) \triangleq \mathbb{E}_{\bold{x} \sim p(\bold{x}|\boldsymbol{\theta})} [\nabla_{\boldsymbol{\theta}} \log p(\bold{x}|\boldsymbol{\theta}) \nabla_{\boldsymbol{\theta}}\log p(\bold{x}|\boldsymbol{\theta})^\top ]
따라서 (i,j)(i, j)-번째 항목은 다음의 형식을 갖는다.
Fij=Exθ[(θilogp(xθ))(θjlogp(xθ))]F_{ij} = \mathbb{E}_{\bold{x}\sim \boldsymbol{\theta}} \left[\left({\partial \over \partial \theta_i} \log p(\bold{x}|\boldsymbol{\theta}) \right) \left({\partial \over \partial \theta_j}\log p(\bold{x}|\boldsymbol{\theta}) \right) \right]
피셔 정보 행렬은 Negative Log Likelihood(NLL)의 expected Hessian과 같다.
(이에 대한 증명 생략)
NLL(θ)=logp(Dθ)\text{NLL}(\boldsymbol{\theta}) = -\log p(\mathcal{D}|\boldsymbol{\theta})
헤시안이 loglikelihood의 곡률을 측정하기 때문에, FIM이 likelihood 함수가 최상의(best) 파라미터 집합을 얼마나 잘 식별할 수 있는지를 알려준다.

Confidence intervals

빈도주의 통계에서 파라미터 추정의 불확실성을 추정하는 방법으로 샘플링 분포에 의해 유도된 변동성를 사용한다. 특히 100(1α)100(1-\alpha)% confidence interval(신뢰 구간)을 다음과 같이 가상 데이터 셋 D~\tilde{\mathcal{D}}에서 파생된 임의의 구간 I(D~)=((D~),u(D~))I(\tilde{\mathcal{D}}) = (\ell(\tilde{\mathcal{D}}),u(\tilde{\mathcal{D}}))으로 정의한다.
Pr(θI(D~)D~θ)=1α\text{Pr}(\theta \in I(\tilde{\mathcal{D}})|\tilde{\mathcal{D}} \sim \theta) = 1-\alpha
95% CI를 산출하는 α=0.05\alpha = 0.05를 설정하는 것이 일반적이다.
이것의 의미는 데이터를 반복해서 샘플링하고 각 데이터셋에 대해 I(D~)I(\tilde{\mathcal{D}})를 계산하면 해당 간격의 약 95%에 실제 파라미터 θ\theta를 포함된다는 것이다. CI의 적용 범위(coverage)가 95%라고 말한다.
그러나 위 방정식은 특정 데이터셋에 대해 베이지안 credible interval이 계산하는 θI(D)\theta \in I(\mathcal{D})가 95%의 확률로 존재한다는 것을 의미하지 않는다. 빈도주의CI와 베이지안 CI의 개념은 매우 다르다.

참고