Information criteria
•
cross validation의 대안은 학습셋의 NLL에 complexity penaly 항을 사용하여 모델에 점수를 매기는 것이다.
•
이것을 information criterion이라 부른다. 다른 방법은 다른 복잡성 항 을 사용한다.
◦
information criteria에서 작업할 때 편차(deviance)를 얻기 위해 NLL을 로 스케일하는 것이 일반적이다.
Minimum description length (MDL)
•
information theory의 측면에서 다양한 모델에 점수를 매기는 것의 문제에 관해 생각할 수 있다.
◦
이것은 가장 간결한(가장 짧은 설명을 요구하는) 모델이 가장 좋은 모델이라는 아이디어를 기반으로 데이터와 모델을 압축하여 표현하는데 필요한 정보의 양을 최소화하는 모델을 선택한다. 이는 정보 이론 관점에서 통신할 때 비트 수가 적을 수록 좋기 때문이다.
•
목표는 송신자가 수신자에게 데이터를 커뮤니케이션 하는 것이다.
◦
우선 송신자는 사용할 모델 을 명시해야 한다. 이것은 bits를 취한다.
◦
그러면 수신자는 을 계산하여 모델을 fit할 수 있고 데이터를 근사로 재구성(reconstruct)할 수 있다.
◦
데이터를 완벽하게 재구성하기 위해 송신자는 모델에 의해 설명될 수 없는 residual error를 보내야 한다. 다음을 취한다.
•
존재하는 경우 입력 feature 을 보내는 비용은 무시하고 전체 비용은
•
이 비용을 최소화하는 모델을 선택하는 것은 minimum description length(MDL) 원칙이라고 한다. MDL도 손실 함수이므로 값이 낮을 수록 더 좋은 모델을 의미한다.
◦
MDL의 페널티 항 이 모델의 압축된 비트 수이므로 더 작은 비트 수를 가진 모델이 더 낮은 점수를 갖게 되어 더 간결한 모델이 더 나은 모델이라는 개념을 만족하게 된다.
The Bayesian information criterion (BIC)
•
Bayesian information criterion(BIC)는 MDL과 유사하며 다음 형식을 갖는다.
◦
여기서 은 모델 의 자유도(degrees of freedom, dof)이다.
•
위 식은 손실함수이기 때문에 값이 작을수록 더 좋은 모델를 의미한다. 그러나 log likelihood 를 무작정 작게만 만드는 것을 목표로 하면 과적합이 발생할 수 있기 때문에 이라는 페널티 항을 추가하여 과적합을 방지하도록 구성한 것이다.
•
BIC 점수를 다음과 같이 log marginal likelihood의 단순 근사로 유도할 수 있다. (유도 과정 생략)
•
여기에 를 곱해서 최소화하기를 원하는 BIC loss를 정의할 수도 있다.
Akaike information criterion
•
Akaike information criterion은 BIC와 가깝게 연관되어 있다. 다음의 형식을 갖는다.
•
AIC도 손실 함수이므로 값이 낮을 수록 더 좋은 모델을 의미한다.
◦
BIC의 과 마찬가지로 항이 손실함수의 과적합을 방지하기 위한 페널티 항으로 사용된다.
•
이 모델은 regularization 항이 에 독립이기 때문에 BIC 보다 덜 무겁다.
◦
이 추정기는 빈도주의 관점에서 유도될 수 있다.
Widely applicable information criterion (WAIC)
•
MDL, BIC와 AIC의 주요 문제는 대부분 파라미터가 높게 연관되어 있고 likelihood에서 고유하게 식별가능하지 않기 때문에 복잡성 항을 정의하는데 필요한 모델의 자유도를 계산하는데 어렵다는 것이다.
◦
특히 파라미터를 likelihood로 매핑하는 것이 one-to-one이 아니면 모델은 Fisher information 행렬에 해당하기 때문에 singular statistical model로 부른다.
◦
따라서 헤시안 이 singular(행렬식이 0인)가 될 수 있다. widely applicable information criterion(WAIC) (또는 Watanabe-Akaike information criterion이라 불림)이라 부르는 대안은 singular인 경우에도 작동한다.
•
WAIC는 더 베이지안이라는 것을 제외하면 다른 정보 기준과 같다.
◦
우선 파라미터의 점 추정을 사용하는 log likelihood 을 파라미터들을 marginalize하는 LPPD로 교체한다.
◦
복잡성 항의 경우 WAIC는 예측 분포의 분산을 사용한다.
•
이것에 대한 직관은 다음과 같다.
◦
주어진 데이터 포인트 에 대해 다양한 posterior 샘플 이 매우 다른 예측을 하는 경우 모델은 불확실하고 너무 유연할 수 있다. 복잡성 항은 근본적으로 이것이 발생하는 것을 센다.
◦
최종 WAIC 손실은 다음과 같다.
•
흥미롭게도 PSIS LOO 추정은 WAIC와 점근적으로(asymptotically) 동등하다고 볼 수 있다.