[기초통계학] 01. 모집단과 표본
모집단과 표본, 표본추출, 가중치
1. 모집단과 표본¶
연구 대상을 모두 모아놓은 것을 모집단(population)이라고 한다. 그러나 어떤 실험이나 데이터 분석을 위해 실험을 진행했을 때는 모집단이 명확하지 않을 수 있는데, 이 때는 해당 실험을 무한히 많이 반복했을 때 구성되는 전체의 데이터를 모집단으로 볼 수 있다.
모집단의 전체를 분석하는 전수조사는 대상의 크기가 매우 커서 거의 이루어지지 않으며, 대부분의 경우 특정 표본을 추출하여 포본을 조사하는 표본조사 방식으로 이루어지게 된다.
이 때 모집단으로부터 선택된 일부의 개체를 표본(sample)이라고 한다.
따라서 통계학의 기본 구조는 모집단에서 표본을 추출한 후, 표본의 성질을 이용하여 모집단의 성질을 예측하는 것이라고 할 수 있다.
1-1. 목표모집단¶
연구의 관심 대상인 모든 기본단위들의 집합을 목표모집단(target population)이라하는데, 시공간이 명확하게 정의된 연구 대상의 집단을 말한다.
1-2. 조사모집단¶
표본추출틀, 즉 표본으로 추출할 대상의 전체 목록을 구성하기 어려운 경우에는 조사모집단(survey population)/조사가능모집단(accessible population)으로 대체하여 사용한다.
조사모집단은 현실적인 제약을 고려해 표본추출 대상을 축약하여 구성한 모집단으로, 포본추출틀을 통해 추출될 수 있는 기본단위들의 집합을 말한다.
2. 표본추출¶
표본추출에는 단순확률추출, 계통추출, 층화추출, 집락추출 등의 확률표본추출과 편의추출, 유의추출, 할당추출 등의 비확률표본추출이 있다.
2-1. 확률표본추출¶
확률표본추출(probability sampling)은 모집단을 구성하는 모든 추출단위에 대해 표본으로 추출된 확률을 알 수 있는 추출법으로 모집단을 대표할 수 있는 표본을 추출하는 방법이다.
확률표본추출은 표본추출틀(sampling frame, 표집틀)을 기반으로 이루어지며, 특정한 표본이 선정될 확률을 토대로 추정오차에 대해 확률을 이용한 과학적 설명이 가능하다.
단순확률추출(Simple Random Sampling)은 크기가 \(N\)인 모집단에서 크기 \(n\)인 표본을 무작위로 추출하는 방법으로, 각 데이터가 표본으로 선택될 확률 \(\text{P}\)는 아래와 같다.
단순확률 추출은 모든 단위들이 표본에 선택될 확률이 동일하기 때문에 그 자체로는 실무에서는 거의 사용되지 않지만, 다른 확률추출법의 기초가 된다.
계통추출(Systematic Sampling)은 표본추출틀에서 처음 \(1 \sim k\) 번째 단위들 중 하나를 랜덤하게 선택한 후 매 \(\(k\)\) 간격으로 단위들을 표본으로 추출하는 방법으로, 표본추출틀이 없어 고유번호나 난수 발생 등 확률추출법을 적용하기 어려운 경우에 주로 사용된다.
계통추출 과정은 아래와 같다.
- 추출간격 \(k\)를 \(N/n\) 또는 정확도를 고려하여 결정
- \(1 \sim k\)에서 난수를 1개 선택하여 시작점 선정
- 시작점에 \(k\)를 반복적으로 더해 표본 추출
층화추출(Stratified Random Sampling)은 모집단을 서로 중복되지 않는 여러 개의 층(strata)로 나누고, 각 층에서 단순확률추출에 의해 표본을 추출하는 방법으로, 부모집단(subpopulation)의 구성 내역을 알고 있고 부모집단 간 특성의 차이가 있을 때 사용한다.
전체 모집단 크기를 \(N\), \(i\) 번째 층의 크기를 \(N_{i}\)라 할 때 각 데이터가 표본으로 추출될 확률 \(\text{P}\)는 아래와 같다.
층화추출 과정은 아래와 같다.
- 층(strata)의 구성
- 각 층에서 독립적으로 단순확률추출을 통해 표본 추출
- 층의 비율에 맞게 추출하며, 층의 비율이 맞지 않으면 가중치를 반영하여 추출
집락추출(Cluster Sampling)은 서로 인접한 조사단위들을 묶어 구성한 집락(cluster)을 추출하고, 이들 집락 내에서 조사단위들을 조사하는 방법이다.
조사단위에 대한 표본추출틀의 확보가 어렵고 조사단위들이 산재되어 조사비용에 부담이 있을 때, 포본추출틀을 쉽게 구성하고 계층에 따라 지역적으로 집중해서 정보를 쉽게 얻기 위해 사용된다.
2-2. 비확률표본추출¶
특정 표본이 선정될 확률을 알 수 없는 경우를 비확률표본추출(non-probability sampling)이라고 하는데, 이 경우 추론 결과의 정확도를 보장할 수 없다.
대표적으로 편의(convenience) 추출, 유의(purposive) 추출, 할당(quota) 추출 등이 있다.
3. 확률표본추출의 가중치¶
모집단이 서로 다른 특성을 가지는 부모집단(subpopulation)들로 이루어진 경우, 특정 부모집단에서 표본이 많이 추출되거나 적게 추출되면 전체 모집단에 대해 왜곡된 결과가 나올 수 있다. 이처럼 표본추출 과정에서 모집단의 구성과 다른 구성의 표본이 추출되는 경우 발생하는 문제는 해결하기 위해 가중치를 조정한다.
이 때 가중치(weight)는 하나의 표본이 몇 개의 데이터를 대표하는지를 의미하며, 어떤 특성에 대해 가중표본분포가 알려진 모집단 분포와 일치하도록 가중치를 준다.
각 추출법에서의 기본 가중치는 아래와 같다.
- 단순확률추출: 각 표본에 대한 설계가중치는 동일. \(w_{j} = N / n\)
- 계통추출: 각 표본에 대한 설계가중치는 동일. \(w_{j} = N / n = k\)
- 층화추출: 층의 크기와 해당 층에서의 표본크기에 따라 달라짐
- 집락추출: 집락의 크기와 해당 집락에서의 표본크기에 따라 달라짐