모수(population parameter)란 모평균, 모표준편차, 모분산 등 모집단에 대한 데이터를 말한다. 확률표본을 뽑는 이유는 모수에 대한 추론을 통해 모집단을 추정하기 위해서인데, 이를 모수적 추론이라 한다. 모집단에 대한 추론을 수행하기 위해 관측 가능한 표본의 함수값, 즉 통계량(statistic)을 도출하는데, 이 때 관측 가능하다는 것은 통계량이 미지의 모수를 포함하고 있지 않다는 것을 의미한다.
또한 모수의 추정에서 사용되는 통계량을 추정량(estimator)이라 하며, 추정량의 관측값을 추정치/추정값(estimate)이라 한다. 해당 용어들을 표현하기 위해 일반적으로 사용하는 기호들은 아래와 같다.
통계량의 확률분포를 표본분포(sampling distribution)라 하며, 통계량의 표준편차(\(SD\))를 표준 오차(standard error)라고 한다.
표본평균/표본비율, 표본분산/표본표준편차, 극한값 등 다양한 통계량이 있는데, 표본평균을 예로 들면 평균이 \(\mu\), 분산이 \(\sigma^{2}\)인 정규분포에서 \(n\)개의 확률표본을 추출했을 때 표본평균 \(\overline{X}\)의 분포는 아래와 같다.
위에서 확인했듯이 평균이 \(\mu\), 분산이 \(\sigma^{2}\)인 정규분포에서 \(n\)개의 확률표본을 추출했을 때 표본평균\(\overline{X}\)의 평균과 분산은 각각 \(\mu\)와 \(\sigma^{2}/n\)이 된다. 이 때, \(n\)이 무한대로 발산하면 \(\overline{X}\)는 \(\mu\)로 수렴한다.
이처럼 표본집단의 크기가 커지면 그 표본평균이 모평균에 가까워지며 결과적으로 확률분포가 통계적 확률로 수렴하는 것을 큰 수의 법칙이라고 한다.
이러한 정리가 큰 수의 법칙(law of large numbers) 중 하나인 약한 큰 수의 법칙이며 아래와 같이 표현한다.
평균이 \(\mu\), 분산이 \(\sigma^{2}\)인 모집단에서 추출된 확률표본 \(X_{1}, \cdots, X_{n}\)이 있을 때, \(n\)이 커질수록 모집단의 형태와 관계없이 \(\overline{X}\)의 분포는 정규분포에 근사하는데, 이를 중심극한정리(central limit theorem)라 한다.
이와 같이 이항분포를 정규 근사할 때, 이항분포는 이산형이고 정규분포는 연속형이기 때문에 범위의 경계 지점을 포함하는지 여부에 대한 모순이 발생한다. 따라서 이를 해결하기 위해 여분의 0.5를 더하거나 빼는 것으로 보정해주는데, 이를 연속성 수정(continuity correction)이라 한다.
\[
\begin{gathered}
P(X > x) = P(X \geq x + 1), \ P(X \geq x) = P(X > x - 1) \\
\\
\Rightarrow P(X < x) \simeq P \left( Z < \frac{x - 1/2 - np}{\sqrt{np(1 - p)}} \right) \simeq P(X \leq x - 1) \\
\\
\Rightarrow P(X > x) \simeq P \left( Z > \frac{x + 1/2 - np}{\sqrt{np(1 - p)}} \right) \simeq P(X \geq x - 1)
\end{gathered}
\]