Log partition function is cumulant generating function
•
분포의 1차 2차 cumulant는 평균 와 분산 이다. 반면 1차 2차 moment는 와 이다. 또한 더 높은 차수의 cumulant(와 moment)를 계산할 수 있다.
•
지수족의 중요한 속성은 log 분할 함수의 도함수를 사용하여 충분 통계량(sufficient statistics)의 모든 cumulants를 생성할 수 있다는 것이다. 특히 1차 2차 cumulants는 다음과 같이 주어진다.
Canonical (natural) vs mean (moment) parameters
•
를 normalized 자연 파라미터라고 하자.
•
가 열린 집합(open set)이면 지수족이 regular이다 라고 말한다. 이것은 이 볼록 집합이고 는 이 집합에서 정의된 볼록 함수라고 볼 수 있다.
•
log 분할 함수의 도함수가 충분 통계량의 평균과 동등함을 보였다. 즉
•
유효한 moment 파라미터의 집합은 다음처럼 주어진다. 어떤 분포 에 대해
•
다음을 사용하여 natural 파라미터를 moment 파라미터로 변환할 수 있음을 보았다.
•
family가 최소이면 다음을 보일 수 있다.
•
여기서 은 의 볼록 켤레이다.
•
따라서 연산자 의 쌍은 natural 파라미터 와 평균 파라미터 의 사이를 오갈 수 있게 해준다.
•
와 와 관련된 Bregman divergences가 다음과 같음에 유의하라.
MLE for the exponential family
•
지수족 모델의 likelihood는 다음의 형식을 갖는다.
•
여기서 는 충분 통계량이다.
•
예컨대
◦
베르누이 모델에 대해 을 갖고
◦
단변량 가우시안에 대해 을 갖는다.
•
Pitman-Koopman-Drmois theorem에 따르면 특정한 regularity 조건 하에 지수족이 유한 충분 통계량의 유일한 분포의 family이다. (여기서 유한은 데이터셋의 크기와 무관한 크기를 의미한다.)
◦
다른 말로 자연 파라미터 의 지수족에 대해 다음이 성립한다.
•
이제 이 결과를 이용하여 어떻게 MLE를 계산하는지 보자. log likelihood는 다음과 같이 주어진다.
•
가 에서 오목이고 가 에서 선형이기 때문에 log likelihood가 오목임을 볼 수 있다. 따라서 고유한 전역 최대가 존재한다.
◦
이 최대를 유도하기 위해 log 분할 함수의 도함수가 충분 통계 벡터의 기대값을 산출한다는 사실을 이용한다.
•
단일 데이터의 경우에 다음이 된다.
•
의 gradient를 0으로 설정하여 MLE를 확인할 수 있다. 충분 통계량의 경험적 평균은 모델의 이론적 기대 충분 통계량과 같아야 한다. 즉 는 다음을 만족해야 한다.
•
이것을 moment matching이라고 한다.
◦
예컨대 베르누이 분포에서 을 가지면 MLE는 다음을 만족한다.
Exponential dispersion family
•
exponential dispersion family(지수 분산 족)라고 부르는 자연 지수족의 얕은 확장이 존재하는데, 이것은 GLM을 논의할 때 유용하다. 스칼라 값에 대해 다음의 형식을 갖는다.
•
여기서 는 dispersion(분산) parameter라고 부른다. 고정된 에 대해 이것은 natural 지수족이다.
Maximum entropy derivation of the exponential family
•
어떤 데이터를 설명하는 분포 를 찾기를 원한다고 가정하자. 여기서 아는 것은 특정한 feature나 함수 의 기대값 뿐이다.
•
예컨대 은 를 계산하고, 는 을 계산하여 을 경험적 평균으로 를 경험적 2차 moment로 만들 수 있다. 분포에 대한 prior의 믿음은 이다.
◦
‘최소 가정의 수’를 형식화 하기 위해 제약조건을 만족시키면서 KL divergence의 의미에서 prior 에 최대한 가까운 분포를 찾는다.
◦
균등 prior 을 사용하면 KL 다이버전스를 최소화는 것은 엔트로피를 최대화하는 것과 동등하다. 이 결과는 maximum entropy model이라 부른다.
•
위 방정식과 과 을 제약조건으로 KL을 최소화하기 위해 라그랑지안 승수를 사용해야 한다. 라그랑지안은 다음과 같이 주어진다.
•
변형 미적분(calculus of variations)을 사용하여 함수 에 관한 도함수를 취할 수도 있지만 간단하게 를 고정된 길이 벡터로 취급하겠다. (가 이산이라고 가정했기 때문에) 그러면 다음이 성립한다.
•
각 에 대해 을 설정하여 다음을 산출한다.
•
여기서 를 정의했다. 합해서 1이 되는 제약조건을 사용하여 다음을 갖는다.
•
따라서 정규화 상수는 다음과 같이 주어진다.
•
이것은 정확하게 지수족의 형식이다. 여기서 는 충분 통계량의 벡터이고 는 자연 파라미터이고 는 base measure이다.
•
예컨대 feature가 이고 이고 1차와 2차 moment를 일치시키려는 경우 가우시안 분포를 얻는다.