일변량 가우시안
•
가우시안은 평균 와 분산 으로 정의되는 연속 확률 분포로, 가정이 단순하고, 몇몇 특성들 때문에 가장 널리 쓰이는 분포이다.
◦
정규 분포라는 이름으로도 불리지만, 그러면 다른 분포가 normal이 아닌 것처럼 보이기 때문에 적절하지 않다. 오히려 가우시안은 다른 분포에는 없는 여러 특징들 때문에 오히려 비정상이다.
•
가우시안의 누적 분포 함수(Cumulative Distribution Function, CDF)은 다음과 같이 정의 된다.
•
가우시안의 확률 밀도 함수(Probability Density Function, PDF)는 다음과 같이 정의 된다.
◦
아래 식에서 는 밀도가 1로 통합되는데 필요한 정규화 상수이다.
•
의 지수로 값을 올리면 표기상 눈에 잘 안보이기 때문에 위의 식은 를 이용하여 표기한다.
•
가우시안 중에서도 평균이 이고 분산이 인 () 가우시안을 표준정규분포(standard normal distribution)라고 한다.
•
분산의 역수를 정밀도(precision)이라고 부르며 다음과 같이 정의한다.
•
가우시안 분포의 지수 부분을 다음과 같이 2차식의 형태로 정리 할 수 있다.
•
이것은 의 형태가 된다. 여기서 과 의 계수를 다음과 같이 정리할 수 있다.
•
위 계수 를 이용하여 평균과 분산을 다음과 같이 유도할 수 있다.
•
따라서 가우시안 분포에 대해 지수 함수 내에 형태를 유도할 수 있으면, 해당 계수 를 이용하여 가우시안 분포의 평균과 분산을 유도할 수 있다.
일변량 가우시안의 Maximum Likelihood Estimation
•
일변량 가우시안의 Likelihood 함수는 다음과 같이 정의 됨.
•
Log를 씌우면 다음과 같이 된다.
•
위 식에 대해 으로 각각 편미분하고 그 식을 0으로 만드는 값을 찾으면 다음과 같이 의 MLE가 구해진다.
중심 극한 정리
•
중심극한정리(Central Limit Theorem)는 여러 분포의 합이 커지면 정규분포와 비슷한 분포를 이루는 현상을 말한다.
◦
많은 현상을 정규분포를 이용해 모형화 하는 이유 중의 하나가 바로 이것 때문이다.
◦
아래 식의 기호는 표본 개수 이 커질수록 분포의 모양이 특정한 분포에 수렴한다는 것을 뜻한다.
개의 임의의 분포로부터 얻은 표본의 평균은 이 증가할수록 기댓값이 , 분산이 인 정규분포로 수렴한다.
•
이 표본 평균의 평균이 , 분산이 이 되도록 다음처럼 정규화를 하면 다음과 같이 쓸 수도 있다.
개의 임의의 분포로부터 얻은 표본의 평균을 정규화하면 이 증가할수록 표준정규분포로 수렴한다.
다변량 가우시안
•
다변수 가우시안(multi-variate normal, MVN)은 다음과 같이 정의 된다.
◦
이 식에서 와 는 차원 벡터이고, 는 차원 공분산 행렬이다.
◦
정규화 상수 는 PDF가 1로 통합되도록 보장한다.
•
공분산 행렬은 다음과 같이 정의된다.
◦
대각방향에는 자기 자신에 대한 분산이 있고, 나머지 항에는 두 분포의 공분산이 존재.
•
위 식을 유도하여 다음을 얻을 수 있다.
•
일변량 때와 유사하게 공분산의 역행렬을 정밀도 행렬(precision matrix)이라고 하고 다음처럼 정의한다.
•
다변량 가우시안의 공분산 행렬은 는 양의 정부호인 대칭행렬이므로 대각화가능이다. 정밀도행렬 는 다음처럼 분해할 수 있다.
◦
이 식에서 는 고윳값행렬, 는 고유벡터행렬이다.
•
다변량 가우시안에 대해 로그를 씌우면 다음과 같이 유도된다.
•
이 식에서 앞의 부분은 상수 처리하여 다음과 같이 사용한다.
•
일변량 가우시안과 마찬가지로 다변량 가우시안의 경우도 지수 함수의 2차식을 유도할 수 있으면 평균과 공분산 행렬을 구할 수 있다. 우선 다변량 가우시안의 지수 부분을 전개하여 다음과 같이 2차 형태로 표현한다.
•
여기서 는 2차 항이고, 는 1차항이 된다.
•
다변량 가우시안의 공분산 행렬은 2차항의 역행렬과 연관된다. 2차항의 계수가 이므로 공분산행렬은 의 역행렬 이 된다.
•
평균 벡터는 1차 항의 계수를 2차항의 계수로 나누어 얻을 수 있다. 1차 항의 계수가 이므로 평균 벡터 는 와 1차 항의 계수의 곱으로 계산될 수 있다.
다변량 가우시안의 Maximum Likelihood Estimation
•
다변량 가우시안의 평균과 공분산의 MLE는 다음과 같이 정의된다.
◦
일변량 가우시안 때와 마찬가지로 Likelihood 함수에 Log를 씌운 후에 로 각각 편미분하여 식을 으로 만드는 값을 찾는다.
◦
아래의 식에서 는 외적이다.
2차원 예
•
MVN이 2차원이면 이변량 가우스 분포(bivariate Gaussian distribution)라고 한다. 이때 pdf는 로 표현될 수 있고, 여기서 이다.
•
여기서 는 상관 계수(correlation coefficient)이며 다음과 같이 정의된다.
◦
이때
다변량 가우시안의 주변(Marginal) 분포
•
다변량 가우시안에서 주변(marginal)은 다변량 분포에 있는 변수의 하위 집합에 대한 확률 분포를 말한다.
◦
예컨대 특정 도시 사람들의 연령과 소득이 결합(join)된 분포가 있을 때, 연령에 관계 없이 소득에 대한 분포를 보려면 소득을 기준으로 연령을 합산하면 되는데, 이 결과가 소득에 대한 주변 분포(marginal distribution)이 된다.
•
주변 분포는 다른 변수를 ‘marginalize’ 하거나 ‘sums out’하여 관심 변수에 대한 분포를 얻는다.
◦
예컨대 과 로 이루어진 결합 확률밀도함수 를 로 적분하면 의 주변확률분포가 된다.
•
다변량 가우시안의 결합 분포가 다음과 같이 주어져있다고 하면,
•
평균과 공분산 행렬을 구하면 주변 분포 는 다음과 같이 쉽게 구할 수 있다.
◦
다변량 가우시안의 주변 분포는 가우시안이다.
다변량 가우시안의 조건부(Conditional) 분포
•
다변량 가우시안에서 같은 조건부 분포를 정의하려면 우선 결합 분포를 정의해야 한다. 다변량 가우시안의 결합 분포가 다음과 같이 주어졌다고 하자.
•
이때 두 분포에 대한 조건부 분포는 다음과 같이 조건부 평균과 조건부 공분산행렬 형식으로 주어진다.
◦
다변량 가우시안의 조건부 분포는 가우시안이다.
•
여기서 평균 는 다음과 같다.
•
여기서 공분산행렬 는 다음과 같다.
•
조건부 분포에 로그를 씌우면 의 앞부분은 상수처리 되고 뒷부분만 사용된다.
가우시안의 선형성, 생성 모델
•
서로 다른 2개의 가우시안 분포 가 존재하고, 가 의 값에 따라 조건부로 정의되면, 두 가우시안 분포에 선형 관계가 존재한다고 할 수 있다.
◦
이 두 분포는 일변량이어도 되고 다변량이어도 된다.
•
그러한 식을 다음과 같이 정의할 수 있다.
◦
이때 의 평균은 를 이용해 선형적으로 정의된다. 는 크기가 인 행렬이다.
•
이와 같은 관계에서 를 독립적으로 정의하려면 다음과 같이 에 대한 모든 가능한 값을 통합하여 나타낼 수 있다.
•
에 대한 결합분포는 로 정의할 수 있으며 차원의 가우시안이다. 이 가우시안의 평균과 공분산은 다음과 같이 정의 된다.
•
이 결합 분포에 대해 베이즈룰을 적용하면 posterior 분포 를 계산할 수 있다.
•
생성 모델에서는 이러한 선형 관계를 이용하여 를 잠재(Latent) 분포, 를 (노이즈가 포함된) 관찰된 분포라고 가정한다.
◦
그렇게 하여 관찰된 데이터 를 기반으로 잠재 분포 를 추론하고, 그렇게 추론된 잠재 분포 를 바탕으로 다시 새로운 데이터의 생성, 복원 —는 에 의해 선형적으로 표현되므로—의 작업을 수행한다. —이것이 explicit 생성 모델의 방식이다.
가우시안의 베이즈룰
•
두 가우시안 분포 에 대해 사후 분포는 다음과 같이 주어진다. 이것을 가우시안에 대한 베이즈룰이라고 한다.
•
사후 분포에 대한 정규화 상수는 다음과 같이 주어진다.
•
가우시안 사전 분포 와 가우시안 likelihood 를 결합하면 가우시안 사후 분포 가 된다는 것을 알 수 있다. 따라서 가우시안은 베이지안 조건 하에서 닫힌다.
◦
가우시안의 사전 분포는 가우시안 likelihood에 대한 켤레 사전(conjugate prior)라고 하는데, 이는 사후 분포가 사전 분포와 동일한 유형을 갖기 때문이다.
참고
•
•