[기초통계학] 07. 확률변수와 확률분포
확률변수와 확률분포
1. 확률변수¶
확률변수(random variable)는 표본공간에서 정의된 실함수(real-valued function)를 의미하는데, 좀 더 쉽게 설명하자면 정의역(domain)이 표본공간 이고 공역(codomain)이 실수인 함수를 확률변수라고 하며, 아래와 같이 대신에 알파벳 대문자로 표시한다.
불확실성을 가지는 사회적, 자연적 현상을 일종의 확률실험으로 이해한다면, 표본공간을 숫자로 표시하고 불확실한 현상을 수학적으로 모형화(modeling) 할 수 있어 구체적으로 계량화된 분석을 할 수 있다. 정리하자면 확률변수라는 근거를 통해 불확실한 현상을 수학적인 모형으로 만들 수 있다.
Warning
불확실성을 제거하는 것이 아니다. 불확실성은 제거할 수 없고 수학적으로 모형화할 수 있을 뿐이며, 통계학은 불확실성을 제거하는 것이 아니라 불확실성을 수학적으로 모델링 하는 학문이다.
1-1. 확률분포¶
확률변수는 표본공간의 값을 숫자로 바꾼 함수로, 확률변수가 어떤 값을 가진다는 것은 표본공간 내에 대응하는 원소들이 존재한다는 뜻이다. 이를 수학적으로 표현하면 아래와 같은 의미가 된다.
- 인 표본공간 상에 를 만족하는 사건이 존재한다.
- 임의의 상수 에 대해 이면 표본공간 상에 를 만족하는 사건이 존재한다.
따라서 확률변수에 대해 또는 에 대응하는 확률을 계산할 수 있다. 이 때 확률변수는 숫자로 표시되고 해당 숫자에 대한 확률을 구할 수 있기 때문에 확률변수의 값에 따라 확률이 어떤 형태로 분포되어 있는지를 말할 수 있는데, 이를 확률분포(probability distribution)라 하고, 확률분포를 표로 정리한 것을 확률분포표(probability distribution table)라 한다.
상대도수의 극한의 개념에 따라 확률은 모집단의 구성 형태를 보여주기 때문에, 확률분포는 모집단을 숫자로 표현했을 때의 형태, 즉 모집단의 확률구조를 보여준다고 볼 수 있다.
2. 이산확률변수와 확률질량함수¶
확률변수가 가질 수 있는 값들이 가산(countable), 즉 셀 수 있는 경우에 이산확률변수(discrete random variable)라고 하며, 이산확률변수의 확률구조를 확률질량함수(probability mass function, PMF)를 통해 나타낼 수 있다. 이산확률변수 가 임의의 값 일 확률의 확률질량함수 는 아래와 같이 표현할 수 있다.
2-1. 확률질량함수의 성질¶
확률질량함수의 성질은 아래와 같다.
- 모든 경우에서 확률은 0 이상 1 이하이다.
- 모든 경우의 확률의 합은 1이다.
- 특정 구간의 확률을 구하려면 해당 구간에 존재하는 확률을 모두 더하면 된다.
세 번째 성질의 특수한 형태로 누적분포함수(cumulative distribution function, CDF)가 있으며, 의미는 아래와 같다.
2-2. 확률변수의 변환¶
확률변수의 함수도 확률변수로 확률변수의 변환을 통해 변환된 확률변수의 확률분포를 유도하는 것이 가능하다. 변환된 확률변수의 확률질량함수를 라 할 때, 다음의 식이 성립한다.
3. 연속확률변수와 확률밀도함수¶
확률변수가 가질 수 있는 값이 셀 수 없을 정도로 많은 경우에 연속확률변수(continuous random variable)라고 하며, 연속확률변수의 확률구조를 확률밀도함수(probability density function, PDF)를 통해 나타낼 수 있다.
히스토그램에서 면적이 해당 구간에서의 비율을 의미하듯이, 확률밀도함수에서의 면적은 해당 구간에서의 확률을 의미하며, 는 에서의 확률이 아니라 그 위치에서 상대적으로 얼마나 밀집되어 있는지를 나타낸 것이다.
3-1. 확률밀도함수의 성질¶
확률밀도함수의 성질은 다음과 같다.
- 모든 에서 확률밀도는 0보다 크거나 같다.
- 전체 확률밀도함수를 적분한 값은 1이다.
- 연속확률변수 가 구간 에 속할 확률은 확률밀도함수 의 적분을 통해 구할 수 있다.
세 번째 성질의 특수한 형태로 누적분포함수(cumulative distribution function, CDF)가 있으며, 의미는 아래와 같다.
Warning
연속확률변수에서 가 구간이 아닌 특정 값일 확률은 0이다.