Skip to content

[기초통계학] 09. 확률 벡터와 공분산

확률 벡터와 공분산


1. 확률 벡터

여러 개의 확률변수를 순서열 \(X_{1}, X_{2}, \cdots, X_{n}\)로 표시한 것을 확률 벡터(probability vector)라 한다.

1-1. 결합분포

둘 이상의 확률변수들을 동시에 고려하는 확률분포를 결합분포(joint distribution)라 하며, \(n\)개의 확률변수 \(X_{1}, \cdots, X_{n}\)결합확률함수(joint probability function)는 아래와 같이 표현할 수 있다.

\[ f(x_{1}, \cdots, x_{n}) = P(X_{1} = x_{1}, \cdots, X_{n} = x_{n}) \]

이산확률변수의 결합분포에 대한 결합확률질량함수(joint probability mass function)의 성질은 다음과 같다.

  • 각각의 경우의 수에 대한 확률은 모두 0이상 1이하이다.
\[ 0 \leq f(x, y) \leq 1, \quad \forall x, y \]
  • 모든 경우의 수의 확률을 모두 더하면 1이다.
\[ \sum_{x}\sum_{y}f(x, y) = 1 \]

연속확률변수의 결합분포에 대한 결합확률밀도함수(joint probability density function) \(f(x, y)\)\(x, y\)에서의 밀도를 나타내며, 그 성질은 다음과 같다.

  • 특정 지점의 확률밀도는 0 이상이며, 전체면적은 1로 고정인데 구간의 넓이는 0으로 수렴 가능하기 때문에 상한이 없다.
\[ 0 \leq f(x, y), \quad \forall x, y \]
  • 전체 위치의 확률밀도를 모두 누적한 부피는 1이다.
\[ \int_{x}\int_{y}f(x, y)dydx = 1 \]

1-2. 주변분포

표본공간이 사건 \(B_{1}, B_{2}, \cdots, B_{n}\)분할될 때 사건 \(A\)의 확률은 아래와 같다.

\[ P(X = x) = P(A) = \sum_{i=1}^{n}P(A \cap B_{i}) = \sum_{i=1}^{n}P(X = x, Y = y_{i}) \]

따라서 \(X\)의 주변확률함수 \(f_{X}(x)\)\(Y\)의 주변확률함수 \(f_{Y}(y)\)는 각각 아래와 같이 나타낼 수 있다.

\[ \begin{align*} P(X = x) & = P(A) = \sum_{i=1}^{n}P(A \cap B_{i}) = \sum_{i=1}^{n}P(X = x, Y = y_{i}) \\ \\ \Rightarrow & \quad f_{X}(x) = \sum_{y}f(x, y), \quad f_{Y}(y) = \sum_{x}f(x, y) \\ \\ \Rightarrow & \quad f_{X}(x) = \int f(x, y)dy, \quad f_{Y}(y) = \int f(x, y)dx \end{align*} \]

따라서 특정 확률변수의 확률분포를 구하고 싶을 때 다른 확률변수와의 결합분포만을 알고 있다면, 위와 같이 결합분포하는 확률변수를 모두 더해서 원래 목적인 확률변수의 확률분포를 구할 수 있다.

이 때, 위 식에서 \(f_{X}(x)\)\(X\)의 주변확률함수, \(f_{Y}(y)\)\(Y\)의 주변확률함수라 하고 그 분포를 주변분포(marginal distribution)라 한다.

주변분포와 독립 확률변수

두 확률변수 \(X, Y\)가 독립이면, 모든 \(x, y\)에 대해 아래 식이 성립한다.

\[ f(x, y) = f_{X}(x)f_{Y}(y) \]

따라서 확률 벡터 \(X_{1}, X_{2}, \cdots, X_{n}\)이 상호독립이면, 모든 \(x_{1}, x_{2}, \cdots, x_{n}\)에 대해 아래 식이 성립한다.

\[ f(x_{1}, \cdots, x_{n}) = f_{X_{1}}(x_{1}) \times \cdots \times f_{X_{n}}(x_{n}) = \prod_{i=1}^{n}f_{X_{i}}(x_{i}) \]

2. 공분산과 상관계수

2-1. 결합분포의 기대값

이산확률변수의 결합분포의 기대값은 아래와 같이 구할 수 있다.

\[ \begin{align*} E(X + Y) & = E(X) + E(Y) \\ \\ E(XY) & = \sum_{x}\sum_{y}xyf(x, y) \end{align*} \]
결합분포의 기대값의 간편식 유도
\[ \begin{align*} E(X + Y) & = \sum_{x}\sum_{y}(x + y)f(x, y) \\ \\ & = \sum_{x}\sum_{y}xf(x, y) = \sum_{x}\sum_{y}yf(x, y) \\ \\ & = \sum_{x}f_{X}(x) + \sum_{y}yf_{Y}(y) \\ \\ & = E(X) + E(Y) \end{align*} \]

\(E(XY)\)의 경우에는 간편식이 없지만, \(X\)\(Y\)가 독립인 특수한 경우에는 아래와 같이 구할 수 있다.

\[ E(XY) = E(X)E(Y) \]

2-2. 결합분포의 공분산

표본공분산을 상대도수를 이용한 식으로 표현하면 아래와 같다.

\[ \begin{align*} c_{x, y} & = \frac{1}{n - 1}\sum_{i=1}^{k1}\sum_{j=1}^{k2}n_{ij}(x_{i} - \overline{x})(y_{j} - \overline{y}) \\ \\ & = \frac{n}{n - 1}\sum_{i=1}^{k1}\sum_{j=1}^{k2}p_{ij}(x_{i} - \overline{x})(y_{j} - \overline{y}), \quad p_{ij} = \frac{n_{ij}}{n} \end{align*} \]

따라서 위 식에 상대도수의 극한의 개념을 적용하면 모집단의 공분산은 아래와 같이 표현할 수 있다.

\[ \begin{align*} Cov(X, Y) & = E((X - \mu_{X})(Y - \mu_{Y})) = E(XY) - E(X)E(Y) \\ \\ & = \sum_{x}\sum_{y}(x - \mu_{X})(y - \mu_{Y})f(x, y) \\ \\ Cov(X, Y) & = \int \int (x - \mu_{X})(y - \mu_{Y})f(x, y)dydx \end{align*} \]
공분산의 간편식 유도
\[ \begin{align*} Cov(X, Y) & = \sum_{x}\sum_{y}(x - \mu_{X})(y - \mu_{Y})f(x, y) = E((X - \mu_{X})(Y - \mu_{Y})) \\ \\ & = \sum_{x}\sum_{y}(xy - x\mu_{Y} - y\mu_{X} + \mu_{X}\mu_{Y})f(x, y) \\ \\ & = \sum_{x}\sum_{y}xyf(x, y) - \mu_{X}\mu_{Y}, \quad \because \sum_{x}\sum_{y}x\mu_{Y}f(x, y) = \mu_{X}\mu_{Y} \\ \\ & = E(XY) - E(X)E(Y) \end{align*} \]

이 때 \(X\)\(Y\)가 독립인 경우에는 \(E(XY) = E(X)E(Y)\) 이므로, 공분산은 0이 된다.

Warning

그러나 공분산이 0이라고 해서 \(X\)\(Y\)가 항상 독립인 것은 아니다. \(X\)\(Y\)가 정규분포인 경우에만 공분산이 0일 때 \(X\)\(Y\)가 독립이다.

변환된 확률변수의 공분산

변환된 확률변수의 공분산은 아래와 같이 구할 수 있다.

\[ Cov(aX + b, cY + d) = acCov(X, Y) \]
변환된 확률변수의 공분산 간편식 유도
\[ \begin{align*} Cov(X, Y) & = E((X - \mu_{X})(Y - \mu_{Y})) \\ \\ \Rightarrow \ Cov(aX + b, cY + d) & = E((aX + b - (a\mu_{X} + b))(cY + d - (c\mu_{X} + d))) \\ \\ & = E(ac(X - \mu_{X})(Y - \mu_{Y})) \\ \\ & = acE((X - \mu_{X})(Y - \mu_{Y})) \\ \\ & = abCov(X, Y) \end{align*} \]

2-3. 결합분포의 분산

결합분포의 분산은 아래와 같이 구할 수 있다.

\[ Var(X \pm Y) = Var(X) + Var(Y) \pm 2Cov(X, Y) \]
결합분포의 분산의 간편식 유도
\[ \begin{align*} Var(X) & = E((X - \mu)^{2}) \\ \\ \Rightarrow Var(X \pm Y) & = E(((X \pm Y) - (\mu_{X} \pm \mu_{Y}))^{2}) \\ \\ & = E(((X - \mu_{X}) \pm (Y - \mu_{Y}))^{2}) \\ \\ & = E((X - \mu_{X})^{2} + (Y - \mu_{Y})^{2} \pm 2(X - \mu_{X})(Y - \mu_{Y})) \\ \\ & = E((X - \mu_{X})^{2}) + E((Y - \mu_{Y})^{2}) \pm 2E((X - \mu_{X})(Y - \mu_{Y})) \\ \\ & = Var(X) + Var(Y) \pm 2Cov(X, Y) \end{align*} \]

확률변수 \(X, Y\)가 독립이면, 두 확률변수의 결합분포의 분산은 아래와 같다.

\[ Var(X \pm Y) = Var(X) \pm Var(Y), \quad \because Cov(X, Y) = 0 \]

2-4. 결합분포의 상관계수

표본상관계수와 마찬가지로, 모집단에 대한 확률변수의 상관계수도 표준화한 확률변수를 통해 계산한다.

\[ \begin{gathered} U = \frac{X - \mu_{X}}{\sigma_{X}}, \quad V = \frac{Y - \mu_{Y}}{\sigma_{Y}} \ \Rightarrow \ E(U) = E(V) = 0 \\ \\ Cov(U, V) = E(UV) = \frac{Cov(X, Y)}{\sigma_{X}\sigma_{Y}} \\ \\ \therefore \rho_{XY} = Cor(X, Y) = \frac{Cov(X, Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}} \end{gathered} \]
결합분포의 상관계수의 간편식 유도
\[ \begin{align*} Cov(U, V) & = E(UV) \\ \\ & = E \left(\frac{X - \mu_{X}}{\sigma_{X}}, \frac{Y - \mu_{Y}}{\sigma_{Y}} \right) \\ \\ & = \frac{E((X - \mu_{X})(Y - \mu_{Y}))}{\sigma_{X}\sigma_{Y}} \\ \\ & = \frac{Cov(X, Y)}{\sigma_{X}\sigma_{Y}} \end{align*} \]

상관계수의 성질

상관계수의 성질은 아래와 같다.

  • 상관계수는 -1에서 1 사이의 값을 갖는다.
\[ -1 \leq \rho \leq 1 \]
  • 자료의 분포가 선형에 가까울수록(확률이 모여있을수록) \(\vert \rho \vert\)는 1에 근접한다.

  • 0이 아닌 상수 \(a\)에 대해, \(Y = aX + b\)이면 두 확률변수의 상관계수는 1이다.

\[ Y = aX + b \Rightarrow \vert \rho_{XY} \vert = 1 \]
  • 변환된 확률변수의 상관계수는 계수의 부호만 영향을 준다.
\[ Cor(aX + b, cY + d) = sign(a)sign(b)Cor(X, Y) \]
증명
\[ \begin{align*} Cov(aX + b, cY + d) & = acCov(X, Y), \quad SD(aX + b) = \vert a \vert SD(X) \\ \\ \Rightarrow Cor(aX + b, cY + d) & = \frac{Cov(aX + b, cY + d)}{\sqrt{Var(aX + b)}\sqrt{Var(cY + d)}} \\ \\ & = \frac{acCov(X, Y)}{\vert a \vert \vert c \vert SD(X) SD(Y)} \\ \\ & = sign(a)sign(b)Cor(X, Y) \end{align*} \]

Reference