수학/ Frequentist Statistics - FIM, Confidence Intervals

Asymptotic normality of the sampling distribution of the MLE

Frequentist Statistics

•

베이지안과 달리 파라미터 θ\boldsymbol{\theta}θ가 알려지지 않았지만 고정되어 있고 데이터 D\mathcal{D}D가 무작위라는 관점의 접근을 Frequentist statistics, classical statistics, orthodox statistics라고 한다.

◦

베이지안 접근은 데이터를 관찰하면서 현재 확률 분포를 지속적으로 업데이트하는 것이고, 빈도주의의 접근은 데이터를 관찰하면서 현실을 정확히 표현하는 어떤 이상적인 확률 분포를 찾는 것이고 할 수 있다.

•

빈도주의 통계에서 불확실성은 확률 변수의 posterior 분포가 아니라 추정기(estimator)의 샘플링 분포로 표현된다. 

◦

여기서 추정기는 어떤 관찰된 데이터가 주어지면 어떤 행동을 취해야 하는지를 지정하는 결정 절차이다. 행동 공간(action space)이 파라미터 벡터를 반환하는 파라미터 추정의 맥락에서 이것을 θ^=Θ^(D)\hat{\boldsymbol{\theta}} = \hat{\Theta}(\mathcal{D})θ^=Θ^(D)라 표기한다.

•

추정기의 sampling distribution은 어떤 분포로부터 샘플링된 다양한 데이터셋에 추정기를 여러 번 적용하면 볼 수 있는 결과의 분포이다. 

◦

파라미터 추정의 맥락에서 이것은 랜덤 샘플 D\mathcal{D}D에 의존하는 확률 변수로 간주되는 θ^\hat{\boldsymbol{\theta}}θ^의 분포이다. 

◦

더 자세히 말하면, 어떤 실제 모델 p(x∣θ∗)p(\bold{x}|\boldsymbol{\theta}^*)p(x∣θ∗)에서 각각 크기가 NNN인 다양한 데이터셋에서 SSS개 샘플링하여 다음을 생성한다고 가정하자.

\tilde{\mathcal{D}}^{(s)} = \{\bold{x}_n \sim p(\bold{x}_n|\boldsymbol{\theta}^*):n=1:N\}

•

간결성을 위해 이것을 D~(s)∼θ∗\tilde{\mathcal{D}}^{(s)} \sim \boldsymbol{\theta}^*D~(s)∼θ∗라 표기한다. 이제 각 D~(s)\tilde{\mathcal{D}}^{(s)}D~(s)에 추정기를 적용해서 추정치의 집합 {θ^(D~(s))}\{\hat{\boldsymbol{\theta}}(\tilde{\mathcal{D}}^{(s)})\}{θ^(D~(s))}을 얻는다. 

◦

S→∞S \to \inftyS→∞로 감에 따라 이 집합에 의해 유도된 분포가 추정기의 표본 분포가 된다. 더 정확하게 다음이 성립한다.

p(\hat{\Theta}(\tilde{\mathcal{D}}) = \boldsymbol{\theta}|\tilde{\mathcal{D}} \sim \boldsymbol{\theta}^*) \approx {1\over S}\sum_{s=1}^S \delta(\boldsymbol{\theta} - \hat{\Theta}(\tilde{\mathcal{D}}^{(s)}))

•

이것을 종종 Monte Carlo로 근사한다. 어떤 경우에는 해석적으로 근사치를 계산할 수 있다.

Asymptotic normality of the sampling distribution of the MLE

•

대부분 일반적인 추정기는 MLE이다. 표본 크기가 커질 때 특정 모델에 대한 MLE의 샘플링 분포는 가우시안이 된다. 이것은 샘플링 분포의 asymptotic normality라고 부른다. 더 형식적으로 다음의 결과가 성립한다.

\sqrt{N}(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}^*) \to \mathcal{N}(\bold{0}, \bold{F}(\boldsymbol{\theta}^*)^{-1})

•

여기서 F(θ∗)\bold{F}(\boldsymbol{\theta}^*)F(θ∗)는 Fisher information matrix이고, θ∗\boldsymbol{\theta}^*θ∗는 추정기가 적용될 데이터 생성 절차의 파라미터이고 →\to→는 분포의 수렴을 의미한다.

•

피셔 정보 행렬은 log likelihood의 헤시안과 동등하다. 따라서 F(θ∗)\bold{F}(\boldsymbol{\theta}^*)F(θ∗)는 실제 파라미터 값에서 log-likelihood 표면의 곡률의 정도를 측정한다. 

◦

따라서 이 정리를 다음과 같이 해석할 수 있다. 표본 크기가 무한으로 감에 따라 MLE의 샘플링 분포는 피셔 정보와 동일한 정밀도인 실제 파라미터를 중심으로 한 가우시안에 수렴한다. 

◦

따라서 유익한 (peaked) likelihood의 문제는 파라미터가 데이터에 의해 ‘잘 결정’되도록 보장하여 이 추정기가 다른 데이터셋 D~\tilde{\mathcal{D}}D~에 걸쳐 적용될 때 θ∗\boldsymbol{\theta}^*θ∗ 주위에서 추정치 θ^\hat{\boldsymbol{\theta}}θ^의 변동이 거의 없다.

Fisher information matrix

•

Fisher information matrix은 log likelihood 함수의 곡률과 연관되어 있다. 이것은 빈도주의 통계학에서 MLE의 샘플링 분포를 특성화하는데 대해 핵심 역할을 수행할 뿐만 아니라 최적화 베이지안 통계와 최적화에서도 사용된다.

•

score function은 파라미터 벡터에 관한 log likelihood의 gradient로 정의된다.

\bold{s}(\boldsymbol{\theta}) \triangleq \nabla_{\boldsymbol{\theta}} \log p(\bold{x}|\boldsymbol{\theta})

•

Fisher Information Matrix(FIM)은 score 함수의 공분산으로 정의된다.

\bold{F}(\boldsymbol{\theta}) \triangleq \mathbb{E}_{\bold{x} \sim p(\bold{x}|\boldsymbol{\theta})} [\nabla_{\boldsymbol{\theta}} \log p(\bold{x}|\boldsymbol{\theta}) \nabla_{\boldsymbol{\theta}}\log p(\bold{x}|\boldsymbol{\theta})^\top ]

•

따라서 (i,j)(i, j)(i,j)-번째 항목은 다음의 형식을 갖는다.

F_{ij} = \mathbb{E}_{\bold{x}\sim \boldsymbol{\theta}} \left[\left({\partial \over \partial \theta_i} \log p(\bold{x}|\boldsymbol{\theta}) \right) \left({\partial \over \partial \theta_j}\log p(\bold{x}|\boldsymbol{\theta}) \right) \right]

•

피셔 정보 행렬은 Negative Log Likelihood(NLL)의 expected Hessian과 같다. 

◦

(이에 대한 증명 생략)

\text{NLL}(\boldsymbol{\theta}) = -\log p(\mathcal{D}|\boldsymbol{\theta})

•

헤시안이 loglikelihood의 곡률을 측정하기 때문에, FIM이 likelihood 함수가 최상의(best) 파라미터 집합을 얼마나 잘 식별할 수 있는지를 알려준다. 

Confidence intervals

•

빈도주의 통계에서 파라미터 추정의 불확실성을 추정하는 방법으로 샘플링 분포에 의해 유도된 변동성를 사용한다. 특히 100(1−α)100(1-\alpha)100(1−α)% confidence interval(신뢰 구간)을 다음과 같이 가상 데이터 셋 D~\tilde{\mathcal{D}}D~에서 파생된 임의의 구간 I(D~)=(ℓ(D~),u(D~))I(\tilde{\mathcal{D}}) = (\ell(\tilde{\mathcal{D}}),u(\tilde{\mathcal{D}}))I(D~)=(ℓ(D~),u(D~))으로 정의한다.

\text{Pr}(\theta \in I(\tilde{\mathcal{D}})|\tilde{\mathcal{D}} \sim \theta) = 1-\alpha

•

95% CI를 산출하는 α=0.05\alpha = 0.05α=0.05를 설정하는 것이 일반적이다. 

◦

이것의 의미는 데이터를 반복해서 샘플링하고 각 데이터셋에 대해 I(D~)I(\tilde{\mathcal{D}})I(D~)를 계산하면 해당 간격의 약 95%에 실제 파라미터 θ\thetaθ를 포함된다는 것이다. CI의 적용 범위(coverage)가 95%라고 말한다.

•

그러나 위 방정식은 특정 데이터셋에 대해 베이지안 credible interval이 계산하는 θ∈I(D)\theta \in I(\mathcal{D})θ∈I(D)가 95%의 확률로 존재한다는 것을 의미하지 않는다. 빈도주의CI와 베이지안 CI의 개념은 매우 다르다. 

참고

•

Probabilistic Machine Learning: Advanced Topics