Search
Duplicate

수학/ 확률변수의 변환, 선형성, Convolution

확률변수의 변환

기존의 확률변수를 새로운 확률변수로 바꾸는 것을 확률변수의 변환이라고 한다.
어떤 확률변수 x1:xNx_1:x_N를 확률변환 함수 ff에 넣어서 y1:yNy_1:y_N을 만드는 것.
{x1,x2,...,xN}{f(x1),f(x2),...,f(xN)}\{x_1, x_2, ... , x_N\} \to \{f(x_1), f(x_2),..., f(x_N)\}
예컨대 확률 변환 함수를 다음과 같이 정의할 수 있다.
만일 아래의 식에서 xUnif(0,1)x \sim \text{Unif}(0,1)이었다면 yyxx를 2배 늘리고 +1 이동 시킨 결과를 갖는다.
f(x)=2x+1f(x) = 2x + 1
이런 변환에는 물론 행렬도 사용 가능하다. 이것은 다변량 분포에 사용된다.
f(x)=(acbd)x+biasf(x) = \left( \begin{matrix} a & c \\ b & d \end{matrix} \right) x + \text{bias}

이산형 확률변수

XX가 이산형 확률변수인 경우, 변환된 확률변수의 확률 질량 함수는 다음과 같이 구할 수 있다.
XX에 대한 확률 질량 함수의 합이 YY에 대한 확률 질량 함수의 합이 된다.
py(y)=x:f(x)=ypx(x)p_y(y) = \sum_{x:f(x) = y} p_x(x)

연속형 확률변수

XX가 연속형 확률변수인 경우, 밀도에 대한 합을 구할 수 없기 때문에, 다음과 같이 YY에 대한 누적 분포 함수를 구한다.
Py(y)=Pr(Yy)=Pr(f(X)y)=Pr(X{xf(x)y})P_y(y)=Pr(Y \leq y) = Pr(f(X) \leq y) = Pr(X \in \{ x| f(x) \leq y \})

확률변수 변환의 선형성

XYX \to Y 애 대한 기댓값은 다음과 같은 선형성을 갖는다.
E[y]=E[Ax+b]=AE[x]+b=Aμ+b\mathbb{E}[\bold{y}] = \mathbb{E}[\bold{Ax} + \bold{b}] = \bold{A} \mathbb{E}[\bold{x}] + \bold{b} = \bold{A}\boldsymbol{\mu} + \bold{b}
XYX \to Y 에 대한 공분산 행렬은 다음과 같은 관계를 갖는다.
기댓값과 달리 분산은 선형이 아니다.
만일 두 확률 변수에 대한 분산이 선형이 되려면, 두 확률 변수가 독립이어야 함.
Cov[y]=Cov[Ax+b]=ACov[x]AT=AΣAT\text{Cov}[\bold{y}] = \text{Cov}[\bold{Ax} + \bold{b}] = \bold{A} \text{Cov}[\bold{x}] \bold{A}^T = \bold{A} \boldsymbol{\Sigma} \bold{A}^T

Convolution 이론

만일 y=x1+x2y = x_1 + x_2이고 x1,x2x_1, x_2는 독립적인 확률변수일 때, 이것이 이산 확률 변수인 경우 다음과 같이 합계에 대한 확률 밀도 함수를 계산할 수 있다.
여기서 j=...,1,1,0,1,2,...j = ... , -1, -1, 0, 1, 2, ...
p(y=j)=kp(x1=k)p(x2=jk)p(y=j) = \sum_k p(x_1 = k) p(x_2 = j-k)
만일 x1,x2x_1, x_2가 연속 확률 변수인 경우 YY의 분포는 다음과 같이 누적 분포 함수를 이용하여 정의 된다.
Py(y)=Pr(yy)=p1(x1)[yx1p2(x2)dx2]dx1P_y(y^*) = Pr(y \leq y^*) = \int_{-\infty}^{\infty} p_1(x_1) \left[ \int_{-\infty}^{y^* - x_1} p_2(x_2) dx_2 \right] dx_1
이것을 x1+x2<yx_1 + x_2 < y^*로 정의된 영역 RR에 대해 적분하면 yy에 대한 확률 밀도 함수는 다음과 같다.
p(y)=[ddyPy(y)]y=y=p1(x1)p2(yx1)dx1p(y) = \left[ {d \over dy^*} P_y(y^*) \right]_{y^* = y} = \int p_1(x_1)p_2(y-x_1)dx_1
위 식은 아래와 같이 간편하게 정의되는데, 여기서 \circledast이 컨볼루션 연산이 된다.
컨불루션 연산은 ‘flip and drag’ 작업으로 생각할 수 있다. CNN에서 나오는 컨볼루션 연산이 바로 이것이다.
p=p1p2p = p_1 \circledast p_2
참고로 두 가우시안에 대한 컨볼루션 결과는 가우시안이다.
p(y)=N(x1μ1,σ12)N(x2μ2,σ22)=N(yμ1+μ2,σ12+σ22)p(y) = \mathcal{N}(x_1|\mu_1, \sigma_1^2) \otimes \mathcal{N}(x_2|\mu_2, \sigma_2^2) = \mathcal{N}(y|\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)

참고