Search
Duplicate

수학/ Information Criteria - MDL, BIC, AIC, WAIC

Information criteria

cross validation의 대안은 학습셋의 NLL에 complexity penaly 항을 사용하여 모델에 점수를 매기는 것이다.
L(m)=logp(Dθ^,m)+C(m)\mathcal{L}(m) = -\log p(\mathcal{D}|\hat{\boldsymbol{\theta}},m) + C(m)
이것을 information criterion이라 부른다. 다른 방법은 다른 복잡성 항 C(m)C(m)을 사용한다.
information criteria에서 작업할 때 편차(deviance)를 얻기 위해 NLL을 2-2로 스케일하는 것이 일반적이다.
deviance(m)=2logp(Dθ^,m)\text{deviance}(m) = -2\log p(\mathcal{D}|\hat{\boldsymbol{\theta}},m)

Minimum description length (MDL)

information theory의 측면에서 다양한 모델에 점수를 매기는 것의 문제에 관해 생각할 수 있다.
이것은 가장 간결한(가장 짧은 설명을 요구하는) 모델이 가장 좋은 모델이라는 아이디어를 기반으로 데이터와 모델을 압축하여 표현하는데 필요한 정보의 양을 최소화하는 모델을 선택한다. 이는 정보 이론 관점에서 통신할 때 비트 수가 적을 수록 좋기 때문이다.
목표는 송신자가 수신자에게 데이터를 커뮤니케이션 하는 것이다.
우선 송신자는 사용할 모델 mm을 명시해야 한다. 이것은 C(m)=logp(m)C(m) = -\log p(m) bits를 취한다.
그러면 수신자는 θ^m\hat{\boldsymbol{\theta}}_m을 계산하여 모델을 fit할 수 있고 데이터를 근사로 재구성(reconstruct)할 수 있다.
데이터를 완벽하게 재구성하기 위해 송신자는 모델에 의해 설명될 수 없는 residual error를 보내야 한다. 다음을 취한다.
L(m)=logp(Dθ^,m)=nlogp(ynxn,θ^,m)-L(m) = -\log p(\mathcal{D}|\hat{\boldsymbol{\theta}},m) = -\sum_n \log p(\bold{y}_n|\bold{x}_n,\hat{\boldsymbol{\theta}},m)
존재하는 경우 입력 feature xn\bold{x}_n을 보내는 비용은 무시하고 전체 비용은
LMLD(m)=logp(Dθ^,m)+C(m)\mathcal{L}_\text{MLD}(m) = -\log p(\mathcal{D}|\hat{\boldsymbol{\theta}},m) + C(m)
이 비용을 최소화하는 모델을 선택하는 것은 minimum description length(MDL) 원칙이라고 한다. MDL도 손실 함수이므로 값이 낮을 수록 더 좋은 모델을 의미한다.
MDL의 페널티 항 C(m)C(m)이 모델의 압축된 비트 수이므로 더 작은 비트 수를 가진 모델이 더 낮은 점수를 갖게 되어 더 간결한 모델이 더 나은 모델이라는 개념을 만족하게 된다.

The Bayesian information criterion (BIC)

Bayesian information criterion(BIC)는 MDL과 유사하며 다음 형식을 갖는다.
여기서 DmD_m은 모델 mm의 자유도(degrees of freedom, dof)이다.
LBIC(m)=2logp(Dθ^,m)+DmlogN\mathcal{L}_\text{BIC}(m) = -2 \log p(\mathcal{D}|\hat{\boldsymbol{\theta}},m) + D_m \log N
위 식은 손실함수이기 때문에 값이 작을수록 더 좋은 모델를 의미한다. 그러나 log likelihood 2logp(Dθ^,m)-2\log p(\mathcal{D}|\hat{\boldsymbol{\theta}}, m)를 무작정 작게만 만드는 것을 목표로 하면 과적합이 발생할 수 있기 때문에 DmlogND_m \log N이라는 페널티 항을 추가하여 과적합을 방지하도록 구성한 것이다.
BIC 점수를 다음과 같이 log marginal likelihood의 단순 근사로 유도할 수 있다. (유도 과정 생략)
JBIC(m)=logp(Dθ^,m)Dm2logNJ_\text{BIC}(m) = \log p(\mathcal{D}|\hat{\boldsymbol{\theta}},m) - {D_m \over 2} \log N
여기에 2-2를 곱해서 최소화하기를 원하는 BIC loss를 정의할 수도 있다.
LBIC(m)=2logp(Dθ^,m)+DmlogN\mathcal{L}_\text{BIC}(m) = -2 \log p(\mathcal{D}|\hat{\boldsymbol{\theta}},m) + D_m \log N

Akaike information criterion

Akaike information criterion은 BIC와 가깝게 연관되어 있다. 다음의 형식을 갖는다.
LAIC(m)=2logp(Dθ^,m)+2Dm\mathcal{L}_\text{AIC}(m) = -2 \log p(\mathcal{D}|\hat{\boldsymbol{\theta}},m) + 2D_m
AIC도 손실 함수이므로 값이 낮을 수록 더 좋은 모델을 의미한다.
BIC의 DmlogND_m \log N과 마찬가지로 2D2D 항이 손실함수의 과적합을 방지하기 위한 페널티 항으로 사용된다.
이 모델은 regularization 항이 NN에 독립이기 때문에 BIC 보다 덜 무겁다.
이 추정기는 빈도주의 관점에서 유도될 수 있다.

Widely applicable information criterion (WAIC)

MDL, BIC와 AIC의 주요 문제는 대부분 파라미터가 높게 연관되어 있고 likelihood에서 고유하게 식별가능하지 않기 때문에 복잡성 항을 정의하는데 필요한 모델의 자유도를 계산하는데 어렵다는 것이다.
특히 파라미터를 likelihood로 매핑하는 것이 one-to-one이 아니면 모델은 Fisher information 행렬에 해당하기 때문에 singular statistical model로 부른다.
따라서 헤시안 H\bold{H}이 singular(행렬식이 0인)가 될 수 있다. widely applicable information criterion(WAIC) (또는 Watanabe-Akaike information criterion이라 불림)이라 부르는 대안은 singular인 경우에도 작동한다.
WAIC는 더 베이지안이라는 것을 제외하면 다른 정보 기준과 같다.
우선 파라미터의 점 추정을 사용하는 log likelihood L(m)L(m)을 파라미터들을 marginalize하는 LPPD로 교체한다.
복잡성 항의 경우 WAIC는 예측 분포의 분산을 사용한다.
C(m)=n=1NVθD,m[logp(ynxn,θ,m)]n=1NV{logp(ynxn,θs,m):s=1:S}\begin{aligned} C(m) &= \sum_{n=1}^N \mathbb{V}_{\boldsymbol{\theta}|\mathcal{D},m}[\log p(\bold{y}_n|\bold{x}_n,\boldsymbol{\theta},m)] \\&\approx \sum_{n=1}^N \mathbb{V}\{\log p(\bold{y}_n|\bold{x}_n,\boldsymbol{\theta}_s,m):s=1:S\} \end{aligned}
이것에 대한 직관은 다음과 같다.
주어진 데이터 포인트 nn에 대해 다양한 posterior 샘플 θs\boldsymbol{\theta}_s이 매우 다른 예측을 하는 경우 모델은 불확실하고 너무 유연할 수 있다. 복잡성 항은 근본적으로 이것이 발생하는 것을 센다.
최종 WAIC 손실은 다음과 같다.
LWAIC(m)=2LPPD(m)+2C(m)\mathcal{L}_\text{WAIC}(m) = -2\text{LPPD}(m) + 2C(m)
흥미롭게도 PSIS LOO 추정은 WAIC와 점근적으로(asymptotically) 동등하다고 볼 수 있다.

참고