NHST, p-values
•
hypothesis testing(가설 검증)에 대한 빈도주의 접근은 귀무 가설의 유의 검사(null hypothesis significance testing, NHST)라 부른다.
◦
이것은 null 모델의 샘플링 분포 하에서 어떤 관찰된 검정(test) 통계 의 가능성 여부에 따라 null 가설 를 수용(accept)할지 거절(reject)할지를 결정하는 결정 절차를 정의한다.
•
null 가설을 수용하거나 거절하는 대신 null 가설이 사실일 가능성과 관련된 수량을 계산할 수 있다. 특히 다음과 같이 정의되는 p-value라는 수량을 계산할 수 있다.
•
여기서 은 가상의 미래 데이터이다. 즉 p-값이 샘플링 분포 아래 값을 관찰할 수 있는 꼬리 확률이다.
◦
p값은 데이터의 모델에 명시적으로 의존하지 않는다. 그러나 대부분 일반적인 검정 통계량은 암시적으로 모델을 정의한다.
•
p-value는 귀무가설의 검정 통계량 값이 현재 관찰된 데이터의 검정 통계량 값보다 극단적인 값을 가질 확률을 나타낸다.
◦
만약 p-value가 매우 작다면 현재 관찰된 데이터 가 귀무가설 에서 발생할 확률이 매우 낮다는 것을 의미하게 되고, 결국 귀무가설을 기각하게 된다.
◦
일반적으로는 p-value가 보다 작을 때 귀무가설을 기각하며, 이것을 검정의 유의 레벨(significance level)이라고 한다.
p-values의 문제
•
p값은 종종 null 가설 하의 데이터의 likelihood로 해석된다. 따라서 값이 작으면 의 가능성이 낮고 따라서 의 가능성이 높다는 의미로 해석된다. 이유는 대략적으로 아래와 같다.
이 참이면 검정 통계량은 발생하지 않을 것이다. 그러나 통계가 발생했다. 따라서 은 거짓일 가능성이 높다.
•
그러나 잘못된 추론이다. 왜 그런지 보기 위해 다음 예제를 보자.
사람이 미국인이면, 그는 아마도 congress(의회) 멤버가 아닐 것이다. 이 사람은 congress 멤버이다. 따라서 그는 미국인이 아니다.
•
이것은 명백히 잘못된 추론이다. 대조적으로 다음은 유효한 추론이다.
사람이 화성인이면 congress 멤버가 아닐 것이다. 이 사람은 congress 멤버이다. 따라서 그는 화성인이 아니다.
•
두 사례의 차이는 화성인 예제는 deduction(연역)을 사용했다는 것이다. 즉, 논리적 정의로부터 결론까지 정방향 추론을 했다. 더 정확하게 이 예제는 modus tollen이라 부르는 논리의 규칙을 사용한다. 형식의 정의에서 시작하여 를 관찰하면 를 결론 내릴 수 있다.
◦
대조적으로 미국인 예제는 induction(귀납)이다. 즉 논리적 정의가 아니라 통계적 규칙성을 사용하여 관찰된 증거로부터 가능성 있는(반드시 참은 아니지만) 원인으로 역방향 추론이다.
•
연역을 수행하기 위해 확률론적 추론을 사용해야 한다. 특히 null 가설의 확률을 계산하기 위해 다음과 같이 베이즈 룰을 사용해야 한다.
•
prior가 균등하면 따라서 이면 다음과 같이 likelihood ratio 의 형식으로 재작성할 수 있다.
•
미국인 예에서 는 사람이 congress 멤버인지에 대한 관찰이고 null 가설 는 사람이 미국인이라는 것이고 대안 가설 은 미국인이 아니라는 것이다.
◦
대부분의 미국인이 congress 멤버가 아니기 때문에 이 낮다고 가정한다. 그러나 또한 낮다. —사실 이 예에서 0이다. 미국인만 congress 멤버가 될 수 있기 때문이다. 따라서 직관적으로 알 수 있듯이 이므로 이다.
•
이제 NHST는 뿐만 아니라 prior 도 무시하므로 이 문제 뿐만이 아니라 많은 문제에서 잘못된 결과를 제공한다.
◦
사실 대부분 과학자들도 p-value를 오해한다. 결과적으로 저널 The Americal Statistication은 p-value와 NHST의 사용을 경고하는 특별호를 발행했으며, 몇몇 저널에서는 p-value를 금지 하기도 했다.