Lecture/Elementary Stat

6. 표본의 분포 (Sampling distribution)

2023. 1. 17. 19:07
  • 모집단과 표본
    • 모집단 (population)이란 어떤 정보의 대상이 되는 전체 집단을 의미한다. 
    • 모집단의 크기 (population size)는 모집단에서 관측 가능한 수를 나타낸다.
    • 표본 (sample)이란 모집단으로부터 추출된 부분집합을 의미한다.
    • 표본의 크기 (sample size)는 표본에서 관측 가능한 수를 나타낸다.

 

  • 모수와 통계량
    • 모수 (parameter)란 모집단의 특성을 나타내는 수치화된 값을 의미한다. 
    • 통계량 (statistics)이란 추출된 표본의 특성을 포함하여 모수를 추론하기 위한 수치이다.
    • 표본 분포 (sampling distribution)란 통계량의 확률분포를 지칭한다.

 

  • 통계적 추론
    • 전형적인 통계 문제는 확률변수 $X$에 관심이 있으나 그 확률변수의 pdf $f_X(x)$를 모르는 것이다. $f_X(x)$를 모른다는 것은 대략 다음의 세 가지로 분류할 수 있다.
      1. $f_X(x)$를 전혀 모른다.
      2. $f_X(x)$의 형태는 알고있으나 모수를 모른다.
      3. $f_X(x)$의 모수는 알고있으나 형태를 모른다.
    • 구체적인 예시로 다음과 같은 경우가 있다.
      1. $X$는 지수분포 $Exp(\lambda)$를 따르며 $\lambda$를 모른다.
      2. $X$는 감마분포 $\Gamma(\alpha, \beta)$를 따르며 $\alpha$는 알지만 $\beta$를 모른다.
      3. $X$는 베타분포 $Beta(\alpha, \beta)$를 따르며 $\alpha$와 $\beta$ 모두 모른다.
      4. $X$는 평균이 $\mu$이고 분산이 $\sigma^2$인 모집단에서 추출된 표본이지만 분포를 모른다.

 

  • 확률표본
    • 고려하고 있는 모집단이 확률분포 $f_X(x)$를 따른다고 할 때 모집단으로부터 추출된 $n$개의 확률표본 (random sample) $X_1, X_2, \cdots, X_n$은 모집단과 같은 확률분포 $f_X(x)$로부터 독립적으로 추출된 $n$개의 확률변수들의 집합을 뜻한다.
    • 크기가 $n$인 확률표본 $X_1, X_2, \cdots, X_n$이 주어졌을 때 표본평균 (sample mean) $\overline{X}$와 표본분산 (sample variance) $S^2$은 다음과 같이 정의한다. $$ \overline{X} = \frac{1}{n}\sum^n_{i = 1} X_i, ~~~ S^2 = \frac{1}{n - 1}\sum^n_{i = 1}(X_i - \overline{X})^2 $$ 

 

더보기

Examples

같은 크기의 빨간 공 3개와 파란 공 3개가 들어 있는 주머니에서 2개를 꺼내는 시행을 2번하여 첫번째 시행에서 나온 빨간 공의 수를 $X_1$으로 하고 두번째 시행에서 나온 파란 공의 수를 $X_2$로 할 때 $\overline{X} = (X_1 + X_2) / 2$의 확률분포를 구하시오.

  • 모집단의 확률질량함수
$X = x$ 0 1 2
$f_X(X = x)$ $\binom{3}{0}\binom{3}{2} / \binom{6}{2} = 0.2$ $\binom{3}{1}\binom{3}{1} / \binom{6}{2} = 0.6$ $\binom{3}{2}\binom{3}{0} / \binom{6}{2} = 0.2$
  • $X_1$과 $X_2$의 결합질량함수
$X_1$ \ $X_2$ 0 1 2
0 $0.2 \times 0.2 = 0.04$ $0.2 \times 0.6 = 0.12$ $0.2 \times 0.2 = 0.04$
1 $0.6 \times 0.2 = 0.12$ $0.6 \times 0.6 = 0.36$ $0.6 \times 0.2 = 0.12$
2 $0.2 \times 0.2 = 0.04$ $0.2 \times 0.6 = 0.12$ $0.2 \times 0.2 = 0.04$
  • $\overline{X}$의 확률질량함수
$\overline{X} = x$ 0 0.5 1 1.5 2
$f_{\overline{X}}(\overline{X} = x)$ 0.04 0.24 0.44 0.24 0.04

 

  • 표본평균의 분포
    • 확률표본이 달라지면 통계량 값도 달라진다. 즉, 통계량 자체도 확률변수이므로 통계량의 분포를 고려할 필요가 있다.
    • 하나의 표본으로부터 계산된 표본평균의 관찰값은 모평균과 반드시 일치하지는 않지만 표본평균은 확률분포로서의 기댓값이 모평균과 일치한다.
    • $X_1, X_2, \cdots, X_n$을 평균이 $\mu$이고 분산이 $\sigma^2$인 모집단으로부터 얻은 확률표본이라고 하면 $E(\overline{X}) = \mu$이고 $Var(\overline{X}) = \sigma^2 / n$이 된다.
    • $X_1, X_2, \cdots, X_n$을 평균이 $\mu$이고 분산이 $\sigma^2$인 정규분포를 따르는 모집단으로부터 얻은 확률표본이라고 하면 표본평균 $\overline{X}$는 $N(\mu, \sigma^2/n)$을 따른다.

 

  • 표본평균에 대한 중심극한정리
    • 확률표본 $X_1, X_2, \cdots, X_n$을 평균이 $\mu$이고 분산이 $\sigma^2$인 모집단으로부터 추출했을 때 $S_n = X_1 + X_2 + \cdots + X_n$에 대하여 다음 식이 성립한다. $$ Z_n = \frac{S_n - n\mu}{\sigma\sqrt{n}} = \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1), \text{as } n \to \infty $$
    • 일반적으로 표본의 크기가 30 이상이면 정규분포에 대한 근사는 적합한 것으로 한다.

 

더보기

Examples

어떤 시험의 평균 점수가 50이고 표준편차가 10이다. 임의로 100명의 표본을 추출하여 이들의 점수를 조사했을 때

  1. 평균 점수의 분포를 구하시오. $$ \overline{X} \sim N(50, 10^2/100) $$
  2. 평균 점수가 52 이상일 확률을 구하시오. $$ P(\overline{X} \ge 52) = P\left(\frac{\overline{X} - 50}{10/\sqrt{100}} \ge \frac{52 - 50}{10/\sqrt{100}}\right) = P(Z \ge 2) \approx 0.023 $$

 

  • 표본분산의 분포 - 모분산이 알려진 경우
    • $X_1, X_2, \cdots, X_n$을 분산이 $\sigma^2$인 정규분포를 따르는 모집단으로부터 얻은 확률표본이라고 하면 표본분산 $S^2$에 관련된 다음 통계량 $V$는 자유도가 $n - 1$인 카이제곱분포, 즉, $\chi^2(n - 1)$을 따른다. $$ V = \frac{(n - 1) S^2}{\sigma^2} = \sum^n_{i = 1} \frac{(X_i - \overline{X})^2}{\sigma^2} \sim \chi^2(n - 1)$$
    • proof) \begin{equation*}
      \begin{aligned}
      \sum^n_{i = 1} \frac{(X_i - \mu)^2}{\sigma^2}
      & = \frac{1}{\sigma^2} \sum^n_{i = 1} \{(X_i - \overline{X}) + (\overline{X} - \mu)\}^2 \\
      & = \frac{1}{\sigma^2} \sum^n_{i = 1} \{(X_i - \overline{X})^2 + 2(X_i - \overline{X})(\overline{X} - \mu) + (\overline{X} - \mu)^2\} \\
      & = \frac{1}{\sigma^2} \left\{\sum^n_{i = 1} (X_i - \overline{X})^2 + n(\overline{X} - \mu)^2\right\} \\
      & = \sum^n_{i = 1} \frac{(X_i - \overline{X})^2}{\sigma^2} + \left(\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\right)^2 \\
      \end{aligned}
      \end{equation*}

 

더보기

Examples

어떤 시험의 표준편차가 10이다. 임의로 100명의 표본을 추출하여 이들의 표본분산 $S^2$을 조사했을 때

  1. $V = \frac{(n - 1) S^2}{\sigma^2}$의 분포를 구하시오. $$ V = \frac{(n - 1) S^2}{\sigma^2} = \frac{(100 - 1)S^2}{10^2} = (0.99)S^2 \sim \chi^2(99) $$
  2. 표본분산이 80 이상일 확률을 구하시오. $$ P(S^2 \ge 80) = P[(0.99)S^2 \ge (0.99)80] = P(V \ge 79.2) \approx 0.929 $$

 

  • 표본분산의 분포 - 모평균이 알려진 경우
    • $X_1, X_2, \cdots, X_n$을 평균이 $\mu$인 정규분포를 따르는 모집단으로부터 얻은 확률표본이라고 하면 표본분산 $S^2$에 관련된 다음 통계량 $T$는 자유도가 $n - 1$인 t-분포, 즉, $t(n - 1)$을 따른다. 또한 $T$는 모분산을 모르는 경우의 표본평균의 통계량으로 생각할 수 있다. $$ T = \frac{\overline{X} - \mu}{S / \sqrt{n}} \sim t(n - 1)$$
    • proof) \begin{equation*}
      \begin{aligned}
      \frac{\overline{X} - \mu}{S / \sqrt{n}}
      & = \frac{\frac{\overline{X} - \mu}{1 / \sqrt{n}}}{\sqrt{S^2}} \\
      & = \frac{\frac{\overline{X} - \mu}{\sigma / \sqrt{n}}}{\sqrt{\frac{S^2}{\sigma^2}}} \\
      & = \frac{\frac{\overline{X} - \mu}{\sigma / \sqrt{n}}}{\sqrt{\frac{(n - 1)S^2}{\sigma^2} / (n - 1)}} \\
      \end{aligned}
      \end{equation*}

 

  • 표본비율
    • 베르누이 분포 $X \sim B(1, p)$는 시행이 성공, 실패로만 구분된다.
    • 베르누이 분포를 따르는 모집단으로부터 크기가 $n$인 확률표본을 추출했다면 확률변수 $X = \sum^n_{i = 1} X_i$는 $n$번의 독립적인 베르누이 시행에서의 성공 횟수를 나타내고 $X \sim B(n, p)$가 된다.
    • 표본비율 (sample proportion)은 다음과 같이 정의한다. $$ \hat p = \frac{X}{n} $$

 

  • 표본비율의 분포
    • 이항분포의 정규분포 근사를 통해 $n$이 충분히 크고 $X \sim B(n, p)$이면 $X \sim N(np, np(1 - p))$로 근사 가능함을 확인했었다.
    • $X_1, X_2, \cdots, X_n$을 모수 (성공 확률) $p$를 갖는 베르누이 분포 $B(1, p)$를 따르는 모집단으로부터 얻은 확률표본이라고 하고 성공 횟수를 $X$, 표본비율을 $\hat p$라고 하면 다음 식이 성립한다. $$ \frac{X - np}{\sqrt{np(1 - p)}} = \frac{\hat p - p}{\sqrt{p(1 - p) / n}} \xrightarrow{d} N(0, 1), \text{ as } n \to \infty $$

 

더보기

Examples

어떤 후보의 지지율이 50\%이다. 임의로 100명의 표본을 추출하여 이들의 표본비율 $\hat p$를 조사했을 때

  1. $\hat p$의 분포를 구하시오. $$ \frac{\hat p - 0.5}{\sqrt{0.5 \cdot 0.5 / 100}} = \frac{\hat p - 0.5}{\sqrt{0.0025}} \xrightarrow{d} N(0, 1) $$ $$ \therefore ~~~ \hat p \xrightarrow{d} N(0.5, 0.0025) $$
  2. 100명의 어떤 후보에 대한 지지율(표본비율)이 0.4 이하일 확률을 구하시오. $$ P(\hat p \le 0.4) = P\left(\frac{\hat p - 0.5}{\sqrt{0.0025}} \le \frac{0.4 - 0.5}{\sqrt{0.0025}}\right) = \Phi(-2) \approx 0.023 $$

 

'Lecture > Elementary Stat' 카테고리의 다른 글

8. 구간추정 (Interval estimation)  (0) 2023.01.26
7. 점추정 (Point estimation)  (0) 2023.01.26
5. 이변량 분포 (Bivariate distribution)  (0) 2023.01.16
4. 연속형 분포 (Continuous distribution)  (0) 2023.01.13
3. 이산형 분포 (Discrete distribution)  (0) 2023.01.12
'Lecture/Elementary Stat' 카테고리의 다른 글
  • 8. 구간추정 (Interval estimation)
  • 7. 점추정 (Point estimation)
  • 5. 이변량 분포 (Bivariate distribution)
  • 4. 연속형 분포 (Continuous distribution)
repaired_stat
repaired_stat
OMT
repaired_stat
repaired_stat
repaired_stat
전체
오늘
어제
  • 분류 전체보기 (64)
    • Stat (20)
      • Math Stat (0)
      • Spatial Stat (3)
      • Empirical Process (2)
      • Junk (15)
    • Software (1)
      • R (0)
      • SAS (0)
      • MATLAB (1)
    • Review (32)
      • Movie (32)
      • Product (0)
    • Lecture (11)
      • Elementary Stat (11)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • 스티븐 스필버그
  • inner product
  • 마담 싸이코
  • 이변량분포
  • 통계학
  • 연속형분포
  • 기초통계학
  • 해리슨 포드
  • 통계학개론
  • 가설검정
  • 도그맨
  • 순서통계량
  • 이병헌
  • 스마트폰을 떨어뜨렸을 뿐인데
  • 레디 오어 낫
  • 일표본
  • 이표본
  • 인디아나 존스
  • 추정
  • 표본크기

최근 댓글

최근 글

hELLO · Designed By 정상우.
repaired_stat
6. 표본의 분포 (Sampling distribution)
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.