Frequentist Statistics
•
베이지안과 달리 파라미터 가 알려지지 않았지만 고정되어 있고 데이터 가 무작위라는 관점의 접근을 Frequentist statistics, classical statistics, orthodox statistics라고 한다.
◦
베이지안 접근은 데이터를 관찰하면서 현재 확률 분포를 지속적으로 업데이트하는 것이고, 빈도주의의 접근은 데이터를 관찰하면서 현실을 정확히 표현하는 어떤 이상적인 확률 분포를 찾는 것이고 할 수 있다.
•
빈도주의 통계에서 불확실성은 확률 변수의 posterior 분포가 아니라 추정기(estimator)의 샘플링 분포로 표현된다.
◦
여기서 추정기는 어떤 관찰된 데이터가 주어지면 어떤 행동을 취해야 하는지를 지정하는 결정 절차이다. 행동 공간(action space)이 파라미터 벡터를 반환하는 파라미터 추정의 맥락에서 이것을 라 표기한다.
•
추정기의 sampling distribution은 어떤 분포로부터 샘플링된 다양한 데이터셋에 추정기를 여러 번 적용하면 볼 수 있는 결과의 분포이다.
◦
파라미터 추정의 맥락에서 이것은 랜덤 샘플 에 의존하는 확률 변수로 간주되는 의 분포이다.
◦
더 자세히 말하면, 어떤 실제 모델 에서 각각 크기가 인 다양한 데이터셋에서 개 샘플링하여 다음을 생성한다고 가정하자.
•
간결성을 위해 이것을 라 표기한다. 이제 각 에 추정기를 적용해서 추정치의 집합 을 얻는다.
◦
로 감에 따라 이 집합에 의해 유도된 분포가 추정기의 표본 분포가 된다. 더 정확하게 다음이 성립한다.
•
이것을 종종 Monte Carlo로 근사한다. 어떤 경우에는 해석적으로 근사치를 계산할 수 있다.
Asymptotic normality of the sampling distribution of the MLE
•
대부분 일반적인 추정기는 MLE이다. 표본 크기가 커질 때 특정 모델에 대한 MLE의 샘플링 분포는 가우시안이 된다. 이것은 샘플링 분포의 asymptotic normality라고 부른다. 더 형식적으로 다음의 결과가 성립한다.
•
여기서 는 Fisher information matrix이고, 는 추정기가 적용될 데이터 생성 절차의 파라미터이고 는 분포의 수렴을 의미한다.
•
피셔 정보 행렬은 log likelihood의 헤시안과 동등하다. 따라서 는 실제 파라미터 값에서 log-likelihood 표면의 곡률의 정도를 측정한다.
◦
따라서 이 정리를 다음과 같이 해석할 수 있다. 표본 크기가 무한으로 감에 따라 MLE의 샘플링 분포는 피셔 정보와 동일한 정밀도인 실제 파라미터를 중심으로 한 가우시안에 수렴한다.
◦
따라서 유익한 (peaked) likelihood의 문제는 파라미터가 데이터에 의해 ‘잘 결정’되도록 보장하여 이 추정기가 다른 데이터셋 에 걸쳐 적용될 때 주위에서 추정치 의 변동이 거의 없다.
Fisher information matrix
•
Fisher information matrix은 log likelihood 함수의 곡률과 연관되어 있다. 이것은 빈도주의 통계학에서 MLE의 샘플링 분포를 특성화하는데 대해 핵심 역할을 수행할 뿐만 아니라 최적화 베이지안 통계와 최적화에서도 사용된다.
•
score function은 파라미터 벡터에 관한 log likelihood의 gradient로 정의된다.
•
Fisher Information Matrix(FIM)은 score 함수의 공분산으로 정의된다.
•
따라서 -번째 항목은 다음의 형식을 갖는다.
•
피셔 정보 행렬은 Negative Log Likelihood(NLL)의 expected Hessian과 같다.
◦
(이에 대한 증명 생략)
•
헤시안이 loglikelihood의 곡률을 측정하기 때문에, FIM이 likelihood 함수가 최상의(best) 파라미터 집합을 얼마나 잘 식별할 수 있는지를 알려준다.
Confidence intervals
•
빈도주의 통계에서 파라미터 추정의 불확실성을 추정하는 방법으로 샘플링 분포에 의해 유도된 변동성를 사용한다. 특히 % confidence interval(신뢰 구간)을 다음과 같이 가상 데이터 셋 에서 파생된 임의의 구간 으로 정의한다.
•
95% CI를 산출하는 를 설정하는 것이 일반적이다.
◦
이것의 의미는 데이터를 반복해서 샘플링하고 각 데이터셋에 대해 를 계산하면 해당 간격의 약 95%에 실제 파라미터 를 포함된다는 것이다. CI의 적용 범위(coverage)가 95%라고 말한다.
•
그러나 위 방정식은 특정 데이터셋에 대해 베이지안 credible interval이 계산하는 가 95%의 확률로 존재한다는 것을 의미하지 않는다. 빈도주의CI와 베이지안 CI의 개념은 매우 다르다.