[기초통계학] 07. 확률변수와 확률분포
확률변수와 확률분포
1. 확률변수¶
확률변수(random variable)는 표본공간에서 정의된 실함수(real-valued function)를 의미하는데, 좀 더 쉽게 설명하자면 정의역(domain)이 표본공간 \(\Omega\)이고 공역(codomain)이 실수인 함수를 확률변수라고 하며, 아래와 같이 \(f(x)\) 대신에 알파벳 대문자로 표시한다.
불확실성을 가지는 사회적, 자연적 현상을 일종의 확률실험으로 이해한다면, 표본공간을 숫자로 표시하고 불확실한 현상을 수학적으로 모형화(modeling) 할 수 있어 구체적으로 계량화된 분석을 할 수 있다. 정리하자면 확률변수라는 근거를 통해 불확실한 현상을 수학적인 모형으로 만들 수 있다.
Warning
불확실성을 제거하는 것이 아니다. 불확실성은 제거할 수 없고 수학적으로 모형화할 수 있을 뿐이며, 통계학은 불확실성을 제거하는 것이 아니라 불확실성을 수학적으로 모델링 하는 학문이다.
1-1. 확률분포¶
확률변수는 표본공간의 값을 숫자로 바꾼 함수로, 확률변수가 어떤 값을 가진다는 것은 표본공간 내에 대응하는 원소들이 존재한다는 뜻이다. 이를 수학적으로 표현하면 아래와 같은 의미가 된다.
- \(X = x\) 인 표본공간 상에 \(\{ w \vert X(w) = x, \ w \in \Omega \}\)를 만족하는 사건이 존재한다.
- 임의의 상수 \(a, b\)에 대해 \(a \leq X \leq b\) 이면 표본공간 상에 \(\{ w \vert a \leq X(w) \leq b, \ w \in \Omega \}\)를 만족하는 사건이 존재한다.
따라서 확률변수에 대해 \(X = x\) 또는 \(a \leq X \leq b\) 에 대응하는 확률을 계산할 수 있다. 이 때 확률변수는 숫자로 표시되고 해당 숫자에 대한 확률을 구할 수 있기 때문에 확률변수의 값에 따라 확률이 어떤 형태로 분포되어 있는지를 말할 수 있는데, 이를 확률분포(probability distribution)라 하고, 확률분포를 표로 정리한 것을 확률분포표(probability distribution table)라 한다.
상대도수의 극한의 개념에 따라 확률은 모집단의 구성 형태를 보여주기 때문에, 확률분포는 모집단을 숫자로 표현했을 때의 형태, 즉 모집단의 확률구조를 보여준다고 볼 수 있다.
2. 이산확률변수와 확률질량함수¶
확률변수가 가질 수 있는 값들이 가산(countable), 즉 셀 수 있는 경우에 이산확률변수(discrete random variable)라고 하며, 이산확률변수의 확률구조를 확률질량함수(probability mass function, PMF)를 통해 나타낼 수 있다. 이산확률변수 \(X\)가 임의의 값 \(x\)일 확률의 확률질량함수 \(f(x)\)는 아래와 같이 표현할 수 있다.
2-1. 확률질량함수의 성질¶
확률질량함수의 성질은 아래와 같다.
- 모든 경우에서 확률은 0 이상 1 이하이다.
- 모든 경우의 확률의 합은 1이다.
- 특정 구간의 확률을 구하려면 해당 구간에 존재하는 확률을 모두 더하면 된다.
세 번째 성질의 특수한 형태로 누적분포함수(cumulative distribution function, CDF)가 있으며, 의미는 아래와 같다.
2-2. 확률변수의 변환¶
확률변수의 함수도 확률변수로 확률변수의 변환을 통해 변환된 확률변수의 확률분포를 유도하는 것이 가능하다. 변환된 확률변수의 확률질량함수를 \(W = g(x)\)라 할 때, 다음의 식이 성립한다.
3. 연속확률변수와 확률밀도함수¶
확률변수가 가질 수 있는 값이 셀 수 없을 정도로 많은 경우에 연속확률변수(continuous random variable)라고 하며, 연속확률변수의 확률구조를 확률밀도함수(probability density function, PDF)를 통해 나타낼 수 있다.
히스토그램에서 면적이 해당 구간에서의 비율을 의미하듯이, 확률밀도함수에서의 면적은 해당 구간에서의 확률을 의미하며, \(f(x)\)는 \(x\)에서의 확률이 아니라 그 위치에서 상대적으로 얼마나 밀집되어 있는지를 나타낸 것이다.
3-1. 확률밀도함수의 성질¶
확률밀도함수의 성질은 다음과 같다.
- 모든 \(x\)에서 확률밀도는 0보다 크거나 같다.
- 전체 확률밀도함수를 적분한 값은 1이다.
- 연속확률변수 \(X\)가 구간 \([a, b]\)에 속할 확률은 확률밀도함수 \(f(x)\)의 적분을 통해 구할 수 있다.
세 번째 성질의 특수한 형태로 누적분포함수(cumulative distribution function, CDF)가 있으며, 의미는 아래와 같다.
Warning
연속확률변수에서 \(X\)가 구간이 아닌 특정 값일 확률은 0이다.