- 모집단과 표본
- 모집단 (population)이란 어떤 정보의 대상이 되는 전체 집단을 의미한다.
- 모집단의 크기 (population size)는 모집단에서 관측 가능한 수를 나타낸다.
- 표본 (sample)이란 모집단으로부터 추출된 부분집합을 의미한다.
- 표본의 크기 (sample size)는 표본에서 관측 가능한 수를 나타낸다.
- 모수와 통계량
- 모수 (parameter)란 모집단의 특성을 나타내는 수치화된 값을 의미한다.
- 통계량 (statistics)이란 추출된 표본의 특성을 포함하여 모수를 추론하기 위한 수치이다.
- 표본 분포 (sampling distribution)란 통계량의 확률분포를 지칭한다.
- 통계적 추론
- 전형적인 통계 문제는 확률변수 $X$에 관심이 있으나 그 확률변수의 pdf $f_X(x)$를 모르는 것이다. $f_X(x)$를 모른다는 것은 대략 다음의 세 가지로 분류할 수 있다.
- $f_X(x)$를 전혀 모른다.
- $f_X(x)$의 형태는 알고있으나 모수를 모른다.
- $f_X(x)$의 모수는 알고있으나 형태를 모른다.
- 구체적인 예시로 다음과 같은 경우가 있다.
- $X$는 지수분포 $Exp(\lambda)$를 따르며 $\lambda$를 모른다.
- $X$는 감마분포 $\Gamma(\alpha, \beta)$를 따르며 $\alpha$는 알지만 $\beta$를 모른다.
- $X$는 베타분포 $Beta(\alpha, \beta)$를 따르며 $\alpha$와 $\beta$ 모두 모른다.
- $X$는 평균이 $\mu$이고 분산이 $\sigma^2$인 모집단에서 추출된 표본이지만 분포를 모른다.
- 전형적인 통계 문제는 확률변수 $X$에 관심이 있으나 그 확률변수의 pdf $f_X(x)$를 모르는 것이다. $f_X(x)$를 모른다는 것은 대략 다음의 세 가지로 분류할 수 있다.
- 확률표본
- 고려하고 있는 모집단이 확률분포 $f_X(x)$를 따른다고 할 때 모집단으로부터 추출된 $n$개의 확률표본 (random sample) $X_1, X_2, \cdots, X_n$은 모집단과 같은 확률분포 $f_X(x)$로부터 독립적으로 추출된 $n$개의 확률변수들의 집합을 뜻한다.
- 크기가 $n$인 확률표본 $X_1, X_2, \cdots, X_n$이 주어졌을 때 표본평균 (sample mean) $\overline{X}$와 표본분산 (sample variance) $S^2$은 다음과 같이 정의한다. $$ \overline{X} = \frac{1}{n}\sum^n_{i = 1} X_i, ~~~ S^2 = \frac{1}{n - 1}\sum^n_{i = 1}(X_i - \overline{X})^2 $$
더보기
Examples
같은 크기의 빨간 공 3개와 파란 공 3개가 들어 있는 주머니에서 2개를 꺼내는 시행을 2번하여 첫번째 시행에서 나온 빨간 공의 수를 $X_1$으로 하고 두번째 시행에서 나온 파란 공의 수를 $X_2$로 할 때 $\overline{X} = (X_1 + X_2) / 2$의 확률분포를 구하시오.
- 모집단의 확률질량함수
$X = x$ | 0 | 1 | 2 |
$f_X(X = x)$ | $\binom{3}{0}\binom{3}{2} / \binom{6}{2} = 0.2$ | $\binom{3}{1}\binom{3}{1} / \binom{6}{2} = 0.6$ | $\binom{3}{2}\binom{3}{0} / \binom{6}{2} = 0.2$ |
- $X_1$과 $X_2$의 결합질량함수
$X_1$ \ $X_2$ | 0 | 1 | 2 |
0 | $0.2 \times 0.2 = 0.04$ | $0.2 \times 0.6 = 0.12$ | $0.2 \times 0.2 = 0.04$ |
1 | $0.6 \times 0.2 = 0.12$ | $0.6 \times 0.6 = 0.36$ | $0.6 \times 0.2 = 0.12$ |
2 | $0.2 \times 0.2 = 0.04$ | $0.2 \times 0.6 = 0.12$ | $0.2 \times 0.2 = 0.04$ |
- $\overline{X}$의 확률질량함수
$\overline{X} = x$ | 0 | 0.5 | 1 | 1.5 | 2 |
$f_{\overline{X}}(\overline{X} = x)$ | 0.04 | 0.24 | 0.44 | 0.24 | 0.04 |
- 표본평균의 분포
- 확률표본이 달라지면 통계량 값도 달라진다. 즉, 통계량 자체도 확률변수이므로 통계량의 분포를 고려할 필요가 있다.
- 하나의 표본으로부터 계산된 표본평균의 관찰값은 모평균과 반드시 일치하지는 않지만 표본평균은 확률분포로서의 기댓값이 모평균과 일치한다.
- $X_1, X_2, \cdots, X_n$을 평균이 $\mu$이고 분산이 $\sigma^2$인 모집단으로부터 얻은 확률표본이라고 하면 $E(\overline{X}) = \mu$이고 $Var(\overline{X}) = \sigma^2 / n$이 된다.
- $X_1, X_2, \cdots, X_n$을 평균이 $\mu$이고 분산이 $\sigma^2$인 정규분포를 따르는 모집단으로부터 얻은 확률표본이라고 하면 표본평균 $\overline{X}$는 $N(\mu, \sigma^2/n)$을 따른다.
- 표본평균에 대한 중심극한정리
- 확률표본 $X_1, X_2, \cdots, X_n$을 평균이 $\mu$이고 분산이 $\sigma^2$인 모집단으로부터 추출했을 때 $S_n = X_1 + X_2 + \cdots + X_n$에 대하여 다음 식이 성립한다. $$ Z_n = \frac{S_n - n\mu}{\sigma\sqrt{n}} = \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1), \text{as } n \to \infty $$
- 일반적으로 표본의 크기가 30 이상이면 정규분포에 대한 근사는 적합한 것으로 한다.
더보기
Examples
어떤 시험의 평균 점수가 50이고 표준편차가 10이다. 임의로 100명의 표본을 추출하여 이들의 점수를 조사했을 때
- 평균 점수의 분포를 구하시오. $$ \overline{X} \sim N(50, 10^2/100) $$
- 평균 점수가 52 이상일 확률을 구하시오. $$ P(\overline{X} \ge 52) = P\left(\frac{\overline{X} - 50}{10/\sqrt{100}} \ge \frac{52 - 50}{10/\sqrt{100}}\right) = P(Z \ge 2) \approx 0.023 $$
- 표본분산의 분포 - 모분산이 알려진 경우
- $X_1, X_2, \cdots, X_n$을 분산이 $\sigma^2$인 정규분포를 따르는 모집단으로부터 얻은 확률표본이라고 하면 표본분산 $S^2$에 관련된 다음 통계량 $V$는 자유도가 $n - 1$인 카이제곱분포, 즉, $\chi^2(n - 1)$을 따른다. $$ V = \frac{(n - 1) S^2}{\sigma^2} = \sum^n_{i = 1} \frac{(X_i - \overline{X})^2}{\sigma^2} \sim \chi^2(n - 1)$$
- proof) \begin{equation*}
\begin{aligned}
\sum^n_{i = 1} \frac{(X_i - \mu)^2}{\sigma^2}
& = \frac{1}{\sigma^2} \sum^n_{i = 1} \{(X_i - \overline{X}) + (\overline{X} - \mu)\}^2 \\
& = \frac{1}{\sigma^2} \sum^n_{i = 1} \{(X_i - \overline{X})^2 + 2(X_i - \overline{X})(\overline{X} - \mu) + (\overline{X} - \mu)^2\} \\
& = \frac{1}{\sigma^2} \left\{\sum^n_{i = 1} (X_i - \overline{X})^2 + n(\overline{X} - \mu)^2\right\} \\
& = \sum^n_{i = 1} \frac{(X_i - \overline{X})^2}{\sigma^2} + \left(\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\right)^2 \\
\end{aligned}
\end{equation*}
더보기
Examples
어떤 시험의 표준편차가 10이다. 임의로 100명의 표본을 추출하여 이들의 표본분산 $S^2$을 조사했을 때
- $V = \frac{(n - 1) S^2}{\sigma^2}$의 분포를 구하시오. $$ V = \frac{(n - 1) S^2}{\sigma^2} = \frac{(100 - 1)S^2}{10^2} = (0.99)S^2 \sim \chi^2(99) $$
- 표본분산이 80 이상일 확률을 구하시오. $$ P(S^2 \ge 80) = P[(0.99)S^2 \ge (0.99)80] = P(V \ge 79.2) \approx 0.929 $$
- 표본분산의 분포 - 모평균이 알려진 경우
- $X_1, X_2, \cdots, X_n$을 평균이 $\mu$인 정규분포를 따르는 모집단으로부터 얻은 확률표본이라고 하면 표본분산 $S^2$에 관련된 다음 통계량 $T$는 자유도가 $n - 1$인 t-분포, 즉, $t(n - 1)$을 따른다. 또한 $T$는 모분산을 모르는 경우의 표본평균의 통계량으로 생각할 수 있다. $$ T = \frac{\overline{X} - \mu}{S / \sqrt{n}} \sim t(n - 1)$$
- proof) \begin{equation*}
\begin{aligned}
\frac{\overline{X} - \mu}{S / \sqrt{n}}
& = \frac{\frac{\overline{X} - \mu}{1 / \sqrt{n}}}{\sqrt{S^2}} \\
& = \frac{\frac{\overline{X} - \mu}{\sigma / \sqrt{n}}}{\sqrt{\frac{S^2}{\sigma^2}}} \\
& = \frac{\frac{\overline{X} - \mu}{\sigma / \sqrt{n}}}{\sqrt{\frac{(n - 1)S^2}{\sigma^2} / (n - 1)}} \\
\end{aligned}
\end{equation*}
- 표본비율
- 베르누이 분포 $X \sim B(1, p)$는 시행이 성공, 실패로만 구분된다.
- 베르누이 분포를 따르는 모집단으로부터 크기가 $n$인 확률표본을 추출했다면 확률변수 $X = \sum^n_{i = 1} X_i$는 $n$번의 독립적인 베르누이 시행에서의 성공 횟수를 나타내고 $X \sim B(n, p)$가 된다.
- 표본비율 (sample proportion)은 다음과 같이 정의한다. $$ \hat p = \frac{X}{n} $$
- 표본비율의 분포
- 이항분포의 정규분포 근사를 통해 $n$이 충분히 크고 $X \sim B(n, p)$이면 $X \sim N(np, np(1 - p))$로 근사 가능함을 확인했었다.
- $X_1, X_2, \cdots, X_n$을 모수 (성공 확률) $p$를 갖는 베르누이 분포 $B(1, p)$를 따르는 모집단으로부터 얻은 확률표본이라고 하고 성공 횟수를 $X$, 표본비율을 $\hat p$라고 하면 다음 식이 성립한다. $$ \frac{X - np}{\sqrt{np(1 - p)}} = \frac{\hat p - p}{\sqrt{p(1 - p) / n}} \xrightarrow{d} N(0, 1), \text{ as } n \to \infty $$
더보기
Examples
어떤 후보의 지지율이 50\%이다. 임의로 100명의 표본을 추출하여 이들의 표본비율 $\hat p$를 조사했을 때
- $\hat p$의 분포를 구하시오. $$ \frac{\hat p - 0.5}{\sqrt{0.5 \cdot 0.5 / 100}} = \frac{\hat p - 0.5}{\sqrt{0.0025}} \xrightarrow{d} N(0, 1) $$ $$ \therefore ~~~ \hat p \xrightarrow{d} N(0.5, 0.0025) $$
- 100명의 어떤 후보에 대한 지지율(표본비율)이 0.4 이하일 확률을 구하시오. $$ P(\hat p \le 0.4) = P\left(\frac{\hat p - 0.5}{\sqrt{0.0025}} \le \frac{0.4 - 0.5}{\sqrt{0.0025}}\right) = \Phi(-2) \approx 0.023 $$
'Lecture > Elementary Stat' 카테고리의 다른 글
8. 구간추정 (Interval estimation) (0) | 2023.01.26 |
---|---|
7. 점추정 (Point estimation) (0) | 2023.01.26 |
5. 이변량 분포 (Bivariate distribution) (0) | 2023.01.16 |
4. 연속형 분포 (Continuous distribution) (0) | 2023.01.13 |
3. 이산형 분포 (Discrete distribution) (0) | 2023.01.12 |