수학/ Missing Data

Missing Data

•

데이터 벡터 Xn∈RD\bold{X}_n \in \mathbb{R}^DXn​∈RD의 일부에 알 수 없는 누락된 데이터가 있을 수 있다. (supervised 문제라면 feature 벡터에 라벨을 추가한다) Xn,mis\bold{X}_{n,\text{mis}}Xn,mis​를 누락된 부분이라고 하고 Xn,obs\bold{X}_{n,\text{obs}}Xn,obs​를 관찰된 부분이라고 하자. 

◦

데이터가 누락된 이유가 유익할 수 있으므로(예컨대 ‘질병 X를 갖고 계십니까?’와 같은 질문에 대답을 거부하는 것은 피험자가 실제로 질병을 앓고 있다는 표시일 수 있음) 누락된 데이터를 모델링해야 한다. 

◦

이를 위해 Xn\bold{X}_nXn​의 어느 부분이 ‘공개(관찰)’ 되는지 여부를 나타내는 무작위 변수 Rn\bold{R}_nRn​을 도입한다. 구체적으로 Xn\bold{X}_nXn​이 관찰되는 인덱스(구성 요소)에 대해서는 Rn,obs=1\bold{R}_{n, \text{obs}} = 1Rn,obs​=1을 설정하고 다른 인덱스에 대해서는 Rn,mis=0\bold{R}_{n, \text{mis}} = 0Rn,mis​=0을 설정한다.

•

누락된 데이터 메커니즘에 대해 다양한 종류의 가정을 할 수 있다. 

◦

가장 강력한 가정은 데이터가 missing completely at random(MCAR)이다. 이것은 p(Rn∣Xn)=p(Rn)p(\bold{R}_n|\bold{X}_n) = p(\bold{R}_n)p(Rn​∣Xn​)=p(Rn​)을 뜻한다. 따라서 누락은 은닉이나 관찰된 feature에 의존하지 않는다. 

◦

더 현실적인 가정은 missing at random(MAR)이다. 이것은 p(Rn∣Xn)=p(Rn∣Xn,obs)p(\bold{R}_n|\bold{X}_n) = p(\bold{R}_n|\bold{X}_{n,\text{obs}})p(Rn​∣Xn​)=p(Rn​∣Xn,obs​)를 뜻한다. 따라서 누락은 은닉 feature에 의존하지 않지만 visible feature에 의존할 수 있다. 

◦

이 두 가지 가정이 모두 성립하지 않으면 missing not at random(MNAR)이라 한다.

•

이제 p(yn∣xn,θ)p(\bold{y}_n|\bold{x}_n,\boldsymbol{\theta})p(yn​∣xn​,θ) 형식의 모델을 사용하여 관찰된 입력 xn\bold{x}_nxn​이 주어지면 결과 yn\bold{y}_nyn​를 모델링하는 조건부 또는 판별 모델의 경우를 고려하자. 

◦

xn\bold{x}_nxn​에 조건부이기 때문에 항상 관찰된다고 가정한다. 그러나 출력 라벨은 rnr_nrn​의 값에 의존하여 관찰되지 않을 수도 있다. 

◦

예컨대 semi-supervised learning에서 라벨링 데이터 DL={(xn,yn)}\mathcal{D}^L = \{(\bold{x}_n,\bold{y}_n)\}DL={(xn​,yn​)}와 라벨링되지 않은 데이터 DU={(xn)}\mathcal{D}^U = \{(\bold{x}_n)\}DU={(xn​)}의 조합을 갖는다.

•

아래 그림 graphical 모델 표기를 사용하여 판별 설정에 대해 3개 누락 데이터 시나리오를 보여준다. 

◦

MCAR와 MCAR 경우에 알려지지 않은 모델 파라미터 θ\boldsymbol{\theta}θ가 은닉 leaf node인 경우가 yn\bold{y}_nyn​에 의해 영향을 받지 않기 때문에 출력값이 누락된 라벨이 없는 데이터는 무시할 수 있음을 볼 수 있다. 

◦

그러나 MNAR 경우에 θ\boldsymbol{\theta}θ가 항상 관찰되는 rnr_nrn​의 확률에 영향을 받는다고 가정했기 때문에 숨겨진 경우에도 yn\bold{y}_nyn​에 의존하는 것을 볼 수 있다. 이런 경우에 모델을 맞추기 위해 EM 같은 방법을 사용하여 누락 값을 추정해야 한다. 

•

이제 p(y∣x)p(\bold{y}|\bold{x})p(y∣x) 형식의 판별 모델 대신 p(x,y)=p(y)p(x∣y)p(\bold{x},\bold{y}) = p(\bold{y})p(\bold{x}|\bold{y})p(x,y)=p(y)p(x∣y) 형식의 결합 또는 생성 모델을 사용하는 경우를 고려하자. 

◦

이 경우에 라벨링되지 않은 데이터는 θ\boldsymbol{\theta}θ가 x\bold{x}x와 y\bold{y}y에 모두 의존하기 때문에 MCAR와 MAR 시나리오에서도 학습에 유용할 수 있다. 특히 p(x)p(\bold{x})p(x)에 관한 정보는 p(y∣x)p(\bold{y}|\bold{x})p(y∣x)에 관해 유용할 수 있다.

참고

•

Probabilistic Machine Learning: Advanced Topics