수학/ 기댓값, 분산, 공분산, 상관

기댓값(expected value)

예시

분산(variance)

예시

공분산(Covariance)

상관(Correlation)

심슨의 역설(Simpson’s paradox)

참고

기댓값(expected value)

•

분포의 기댓값은 확률 변수의 값과 확률을 곱한 것으로 다음과 같이 정의된다. 

◦

확률 함수에 곱해지는 것이 확률 변수이고, 그것이 기대값이 된다.

•

이산 확률인 경우

\mathbb{E}[X] = \sum_{x \in X} x p(x)

•

연속 확률의 경우

\mathbb{E}[X] = \int_X x p(x) dx

•

기댓값은 선형이기 때문에 다음과 같이 연산이 가능하다.

\begin{aligned} \mathbb{E}[aX + b] &= a \mathbb{E}[X] + b \\ \mathbb{E} \left[ \sum_{i=1}^{n} X_i \right] &= \sum_{i=1}^{n} \mathbb{E}[X_i] \\ \mathbb{E} \left[ \prod_{i=1}^{n} X_i \right] &= \prod_{i=1}^{n} \mathbb{E}[X_i] \end{aligned}

•

두 기댓값의 덧셈은 다음과 같이 연산 가능하다.

\mathbb{E}[X+Y] = \mathbb{E}[X] + \mathbb{E}[Y]

•

두 기댓값의 곱셈은 다음과 같이 연산 가능하다.

\mathbb{E}[XY] = \mathbb{E}[X] \mathbb{E}[Y] + Cov[X,Y]

•

만일 X,YX, YX,Y가 독립인 경우 Cov[X,Y]=0Cov[X,Y] = 0Cov[X,Y]=0이 되므로, E[XY]=E[X]E[Y]\mathbb{E}[XY] = \mathbb{E}[X] \mathbb{E}[Y] E[XY]=E[X]E[Y]가 된다.

•

분산은 기대값으로 정의되는데 (아래 참조) 그 식을 잘 유도하면 다음과 같은 유용한 결과를 얻을 수 있다.

\mathbb{E}[X^2] = \sigma^2 + \mu^2

•

조건부 기대값의 정의를 이용하면 다음과 같은 식을 유도할 수 있는데, 이를 반복 기대의 법칙이라고 한다.

\mathbb{E}[X] = \mathbb{E}_Y[\mathbb{E}[X|Y]]

예시

•

X∼Unif(a,b)X \sim \text{Unif}(a, b)X∼Unif(a,b)일 때, XXX의 확률 밀도 함수는 다음과 같다.

p_X(x) = {1 \over b-a} \ (a \leq x \leq b)

•

이 때의 기대값은 다음과 같이 계산된다.

\mathbb{E}[X] = \int_a^b x \cdot p_X(x) dx = \int_a^b x \cdot \left( {1 \over b-a} \right) dx = {1 \over b-a}\left[ {1 \over 2} x^2 \right]_a^b = {1 \over 2}(a+b)

분산(variance)

•

분산은 다음과 같이 정의 되는데

\mathbb{V}[X] = \mathbb{E}[(X - \mu)^2] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2

•

이 식을 잘 유도하면 다음과 같은 결과를 유도할 수 있다.

◦

분산은 선형이 아니다.

\mathbb{E}[X^2] = \sigma^2 + \mu^2 \\ \mathbb{V}[aX + b] = a^2 \mathbb{V}[X]

•

분산의 합은 평균과 같이 유도 된다.

\mathbb{V} \left[ \sum_{i=1}^{n} X_i \right] = \sum_{i=1}^{n} \mathbb{V}[X_i]

•

반면 분산의 곱은 평균과 같이 유도되지 않으며 결과는 다음과 같다.

\mathbb{V} \left[ \prod_{i=1}^{n} X_i \right] = \prod_i(\sigma_i^2 + \mu_i^2) - \prod_i \mu_i^2

•

두 분산의 덧셈은 다음과 같이 정의 된다.

\mathbb{V}[X+Y] = \mathbb{V}[X] + \mathbb{V}[Y] + 2\text{Cov}[X, Y]

•

기댓값의 곱셈과 유사하게 X,YX, YX,Y가 독립이라면 Cov[X,Y]=0Cov[X,Y] = 0Cov[X,Y]=0이 되므로, V[XY]=V[X]V[Y]\mathbb{V}[XY] = \mathbb{V}[X] \mathbb{V}[Y] V[XY]=V[X]V[Y]가 된다.

•

기댓값과 달리 두 분산의 곱셈에 대해서는 의미를 두지 않고 대신 X,YX, YX,Y의 공분산에 의미를 두므로 생략.

예시

•

X∼Unif(a,b)X \sim \text{Unif}(a, b)X∼Unif(a,b)일 때, XXX의 분산은 다음과 같다.

◦

확률밀도함수는 위에서 구한 pX(x)=1b−ap_X(x) = {1 \over b-a}pX​(x)=b−a1​를 사용

◦

기대값은 위에서 구한 a+b2{a + b \over 2}2a+b​를 사용

\mathbb{E}[X^2] = \int_a^b x^2 \cdot p_X(x) dx = \int_a^b {1 \over 3}x^3 \cdot {1 \over b-a} dx = {1 \over b-a} \left[ {1 \over 3}x^3 \right]_a^b = {b^2 + ab + a^2 \over 3}

\mathbb{V} = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 = {b^2 + ab + a^2 \over 3} - \left({a + b \over 2}\right)^2 = { (b-a)^2 \over 12}

공분산(Covariance)

•

공분산(Covariance)은 두 확률 변수 X,YX, YX,Y가 (선형적으로) 관련되는 정도를 나타내며 다음과 같이 정의 된다.

\text{Cov}[X, Y] = \mathbb{E}[(X - \mathbb{E}[X])(Y-\mathbb{E}[Y])] = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y]

•

만일 xxx가 D-차원 확률 벡터(random vector)인 경우 다음과 같이 공분산 행렬로 정의하고 Σ\SigmaΣ로 표기한다.

◦

이 행렬은 양의 준정부호 대칭 행렬(positive semi definite matrix)이다.

\text{Cov}[\bold{x}] = \mathbb{E}[(\bold{x} - \mathbb{E}[\bold{x}])(\bold{x} - \mathbb{E}[\bold{x}])^T] = \left( \begin{matrix} \mathbb{V}[X_1] & \text{Cov}[X_1, X_2] & ... & \text{Cov}[X_1, X_D] \\ \text{Cov}[X_2, X_1] & \mathbb{V}[X_2] & ... & \text{Cov}[X_2, X_D] \\ ... & ... & ... & ... \\ \text{Cov}[X_D, X_1] & \text{Cov}[X_D, X_2] & ... & \mathbb{V}[X_D] \end{matrix} \right)

•

이것을 유도하면 다음의 결과를 얻을 수 있다.

◦

여기서 x\bold{x}x는 벡터이므로 xxT≠x2\bold{xx}^T \neq x^2xxT=x2이다. μ\boldsymbol{\mu}μ도 평균벡터가 됨.

◦

일반적으로 그냥 벡터라고 하면 열벡터를 의미하므로 xxT\bold{xx}^TxxT는 외적(outer-product)이 되어서 결과는 행렬이 된다. 반면 xTx\bold{x}^T\bold{x}xTx는 내적(inner-product)이므로 스칼라가 됨.

\mathbb{E}[\bold{xx}^T] = \boldsymbol{\Sigma} + \boldsymbol{\mu \mu}^T

•

공분산의 선형 변환은 다음과 같이 유도된다.

\text{Cov}[\bold{Ax} + \bold{b}] = \bold{A} \text{Cov}[\bold{x}] \bold{A}^T

•

두 확률 벡터(random vector) 사이의 교차 공분산(cross-covariance)은 다음과 같이 정의된다.

\text{Cov}[\bold{x, y}] = \mathbb{E}[(\bold{x} - \mathbb{E}[\bold{x}])(\bold{y} - \mathbb{E}[\bold{y}])^T]

상관(Correlation)

•

상관은 공분산을 정규화한 것으로 X,YX, YX,Y 사이의 피어슨(Pearson) 상관 계수(correlation coefficient)는 ρ\rhoρ로 표기하고 다음과 같이 정의한다.

\rho = \text{corr}[X,Y] = {\text{Cov}[X,Y] \over \sqrt{\mathbb{V}[X] \mathbb{V}[Y]}}

•

이때 −1≤ρ≤1-1 \leq \rho \leq 1−1≤ρ≤1이다. ρ\rhoρ가 −1,0,1-1, 0, 1−1,0,1인 경우를 각각 다음과 같이 부른다. (강하지만 비선형 관계인 경우 상관 계수가 0일 수 있기 때문에, 상관 계수를 ‘선형성의 정도’로 보는 것이 바람직하다)

◦

ρ=1\rho = 1ρ=1: 완전 선형 상관관계

◦

ρ=0\rho = 0ρ=0: 무상관 (독립과는 다름)

◦

ρ=−1\rho = -1ρ=−1 완전 선형 반상관관계

•

만일 어떤 매개변수 a,ba, ba,b에 대해 Y=aX+b (a>0)Y = aX + b \ (a > 0)Y=aX+b (a>0)가 성립하는 경우, (즉 X,YX, YX,Y 사이에 선형 관계가 존재하는 경우) corr[X,Y]=1\text{corr}[X, Y] = 1corr[X,Y]=1이다.

•

연관된 확률 변수의 벡터 xxx의 경우 상관 행렬(correlation matrix)는 다음과 같이 주어진다.

\text{corr}(x) = \left( \begin{matrix} 1 & {\mathbb{E}[(X_1 - \mu_1)(X_2 - \mu_2)] \over \sigma_1 \sigma_2} & ... & {\mathbb{E}[(X_1 - \mu_1)(X_D - \mu_D)] \over \sigma_1 \sigma_D} \\ {\mathbb{E}[(X_2 - \mu_2)(X_1 - \mu_1)] \over \sigma_2 \sigma_1} & 1 & ... & {\mathbb{E}[(X_2 - \mu_2)(X_D - \mu_D)] \over \sigma_2 \sigma_D} \\ ... & ... & ... & ... \\ {\mathbb{E}[(X_D - \mu_D)(X_1 - \mu_1)] \over \sigma_D \sigma_1} & {\mathbb{E}[(X_D - \mu_D)(X_2 - \mu_2)] \over \sigma_D \sigma_2} & ... & 1 \end{matrix} \right)

심슨의 역설(Simpson’s paradox)

•

Simpson의 역설은 여러 다른 데이터 그룹에 나타나는 통계적 추세나 관계가 이러한 그룹이 결합되면 사라지거나 부호가 반전되어 있음을 나타나는 것을 말한다. 따라서 통계적 의존성에 대한 주장을 인과관계로 잘못 해석하면 반직관적인 행동이 발생할 수 있다.

참고

•

Probabilistic Machine Learning: An Introduction

•