Mahalanobis Distance
•
마할라노비스 거리는 다변수 데이터에서 한 점이 데이터셋의 평균에 얼마나 가까운지를 측정하는 방법이다.
◦
직관적으로 표현해서 사건이 얼마나 일어나기 힘든 일인가를 나타낸다.
•
마할라노비스 거리 는 다음처럼 정의된다.
◦
아래의 식에서 는 데이터포인트이고, 는 데이터셋의 평균이나 중심이 되고, 은 데이터셋 공분산행렬의 역행렬(정밀도 행렬)이다.
•
마할라노비스 거리는 데이터셋의 평균 뿐만 아니라 두 벡터나 또는 두 데이터 포인트 간의 거리도 구할 수 있다.
◦
이 경우에는 평균과의 차이가 아니라 두 데이터셋의 차이에 두 데이터셋 분포의 공분산 행렬을 사용하면 된다.
•
공분산행렬이 양의 정부호 행렬이기 때문에 고유분해가 가능하고, 다음과 같이 쓸 수 있다.
◦
여기서 는 번째 고유값, 는 번째 고유벡터이다.
•
공분산행렬의 역행렬인 정밀도 행렬은 다음과 같이 작성할 수 있다.
•
고유분해를 이용해 마할라노비스 거리를 다음과 같이 다시 쓸 수 있다.
◦
여기서 로 정의