Lecture/Elementary Stat

10. 단일 표본에 대한 가설의 검정 (Hypothesis tests for One sample)

repaired_stat 2023. 2. 10. 17:56
  • 가설검정
    • 통계적 가설검정 (hypothesis testing)은 분포나 모수에 대한 추정에 대해 통계적 가설 (statistical hypothesis)을 정하여 확률적으로 이것의 옳고 그름을 판단하는 것을 의미한다.
    • 주로 새로운 주장을 기존에 알던 사실과 대비하여 어느것이 더 맞는지 판단한다.
    • 지금까지 옳은 것으로 알고 있는 기존의 사실을 귀무가설 (null hypothesis, $H_0$)이라고 하고 표본으로부터 얻은 증거에 근거하여 입증하고자 하는 새로운 주장을 대립가설 (alternative hypothesis, $H_1$)이라고 한다.

 

  • 모수에 대한 가설
    • 일반적으로 모수 $\theta$에 대한 가설검정에서 대립가설 $H_1$의 형태는 크게 다음 세 가지로 구분된다. 
      1. $\theta > \theta_0$
      2. $\theta < \theta_0$
      3. $\theta \neq \theta_0$
    • 검증하는 구간에 대하여 구분하면 1과 2는 단측검정 (one-sided test), 3은 양측검정 (two-sided test)으로 구분된다.

 

더보기

Examples

  • 어떤 의약품의 기존 치료율은 $30\%$이고 이 의약품을 개선시켜 치료율이 증가하는지를 확인하기 위해 개선된 의약품을 투여한 50명을 조사한 결과 20명 이상이 치료되었을 때 가설검정을 시행하기 위한 귀무가설($H_0$)과 대립가설($H_1$)을 설정하시오.
    $\Rightarrow$ 개선된 의약품의 치료율을 $p$라고 하면
    $$ H_0 : p = 0.3, ~~~ H_1 : p > 0.3 $$

 

  • 검정통계량과 기각역
    • 확률표본 $X_1, X_2, \cdots, X_n$에 근거하여 가설검정을 수행할때 필요한 통계량을 검정통계량 (test statistic)이라고 한다.
    • 귀무가설 $H_0$를 기각하는 검정통계량의 영역을 기각역 (rejection region, critical region)이라고 한다.
    • 귀무가설 $H_0$를 채택하는 검정통계량의 영역을 채택역 (acceptance region)이라고 한다.
    • 기각역의 구분이 되는 경계의 값을 임계값 (critical value)이라고 한다.

 

  • 검정오류
    • 귀무가설 $H_0$가 참일 때 잘못하여 $H_0$를 기각하는 오류를 제1종 오류 (type I error)라고 한다.
    • 귀무가설 $H_0$가 참이 아닐 때 잘못하여 $H_0$를 채택하는 오류를 제2종 오류 (type II error)라고 한다.
    • 확률표본 $X_1, X_2, \cdots, X_n$에 근거하여 확률적으로 판단하기 때문에 다음의 4가지 경우가 존재한다.
현재의 사실 \ 검정결과 $H_0$가 참 $H_0$가 참이 아님
$H_0$가 참 옳은 판단 제1종 오류
$H_0$가 참이 아님 제2종 오류 옳은 판단

 

  • 유의수준과 검정력
    • 주로 제1종 오류에 집중하여 제1종 오류가 발생할 확률을 일정 수준 이하가 되도록 기각역을 결정한다.
    • 여기서 제1종 오류가 발생할 확률을 유의확률 (significant probability, $p$-value, $p$-값)이라 하고 일정 수준 이하에서의 일정 수준, 즉 유의확률의 최댓값을 유의수준 (significant level, $\alpha$)이라고 한다.
    • 제2종 오류가 발생할 확률을 $\beta$라 한다.
    • $H_0$가 참이 아닐 때 옳은 판단을 할 확률을 검정력 (statistical power, $1 - \beta$)라고 한다.

 

  • 단측검정과 양측검정
    1. 우측검정은 모수 $\theta$에 대해 귀무가설과 대립가설이 다음 식으로 주어진다.
      $$ H_0 : \theta = \theta_0, ~~ H_1 : \theta > \theta_0 $$
    2. 좌측검정은 모수 $\theta$에 대해 귀무가설과 대립가설이 다음 식으로 주어진다.
      $$ H_0 : \theta = \theta_0, ~~ H_1 : \theta < \theta_0 $$
    3. 양측검정은 모수 $\theta$에 대해 귀무가설과 대립가설이 다음 식으로 주어진다.
      $$ H_0 : \theta = \theta_0, ~~ H_1 : \theta \neq \theta_0 $$

 

  • 검정의 형태에 따른 기각역
    • 유의수준 $\alpha$에서 확률표본 $X_1, X_2, \cdots, X_n$에 근거한 검정통계량에 대해 관측값으로 계산된 추정값이 $\hat \theta(x_1, x_2, \cdots, x_n)$이고 기각역을 $R$이라고 하면 검정의 형태에 따른 기각역 $R$은 다음과 같이 주어진다.
      1. $ H_0 : \theta = \theta_0, ~~ H_1 : \theta > \theta_0 $이면 기각역은 다음과 같다. 
        $$ R = \{\hat \theta(x_1, x_2, \cdots, x_n) > c_1\} $$
      2. $ H_0 : \theta = \theta_0, ~~ H_1 : \theta < \theta_0 $이면 기각역은 다음과 같다. 
        $$ R = \{\hat \theta(x_1, x_2, \cdots, x_n) < c_2\} $$
      3. $ H_0 : \theta = \theta_0, ~~ H_1 : \theta \neq \theta_0 $이면 기각역은 다음과 같다. 
        $$ R = \{\hat \theta(x_1, x_2, \cdots, x_n) > c_3\} \cup \{\hat \theta(x_1, x_2, \cdots, x_n) < c_4\} $$

 

  • 가설검정의 절차
    1. 기존에 알려진 사실인 귀무가설 $H_0$와 새로운 주장인 대립가설 $H_1$을 설정
    2. 적절한 검정통계량을 결정
    3. 연구자가 원하는 유의수준 $\alpha$를 설정
    4. 관측값을 통해 p-value를 계산하여 귀무가설의 기각 여부를 판정

 

  • 모평균의 검정 - 모분산이 알려진 경우
    • $X_1, X_2, \cdots, X_n$을 평균이 $\mu$, 분산이 $\sigma^2$인 모집단으로부터 얻은 확률표본이라고 하고 모집단이 정규모집단 또는 비정규모집단에서 대표본인 경우에 귀무가설 $H_0 : \mu = \mu_0$의 검정을 위한 검정통계량은 다음과 같다.
      $$ Z = \frac{\overline{X} - \mu_0}{\sigma / \sqrt{n}} \sim N(0, 1) $$
    • 유의수준 $\alpha$에서 다음의 대립가설에 대하여 각 기각역은 다음과 같다.
      1. $H_1 : \mu > \mu_0$일 때, 기각역 $R_1 = \{z > z_{\alpha}\}$ (우측검정)
      2. $H_1 : \mu < \mu_0$일 때, 기각역 $R_2 = \{z < -z_{\alpha}\}$ (좌측검정)
      3. $H_1 : \mu \neq \mu_0$일 때, 기각역 $R_3 = \{|z| > z_{\alpha / 2}\}$ (양측검정)
    • 대립가설 중 $H_1 : \mu \neq \mu_0$의 기각 여부를 결정하려면 검정통계량으로 표본평균 $\overline{X}$를 이용하여 $\overline{X}$의 값이 $\mu_0$보다 충분히 크거나 작을수록 귀무가설 $H_0$를 기각하고 대립가설 $H_1$을 채택하는 강한 근거가 된다.
    • 따라서 기각역은 다음과 같은 양측검정 형태가 된다. 
      $$ R = \{\overline{x} > c\} \cup \{\overline{x} < -c\} = \{|\overline{x}| > c\} $$
    • 귀무가설 $H_0$가 참일 때 $\overline{X} \sim N(\mu, \sigma^2 / n)$이므로 유의수준 $\alpha$를 만족하는 임계값 $c$는 다음 식으로 결정된다. \begin{equation*} \begin{aligned}
                   \alpha 
                   & = P(H_0 \text{를 기각} | H_0 \text{가 참}) \\
                   & = P(|\overline{X}| > c | \mu = \mu_0) \\
                   & = P\left(\left|\frac{\overline{X} - \mu_0}{\sigma / \sqrt{n}}\right| > \frac{c - \mu_0}{\sigma / \sqrt{n}}\right) \\
                   & = P(|Z| > z_{\alpha / 2}) = P(Z > z_{\alpha / 2}) + P(Z < -z_{\alpha / 2})\\
               \end{aligned}
           \end{equation*}
    • 따라서 앞의 식을 만족하는 임계값 $c$는 $c = \mu_0 + z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}$이므로 기각역 $R$은 다음과 같다. 
      $$ R = \left\{|\overline{x}| > \mu_0 + z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}\right\} $$ 
    • 또한 $p$-value는 다음과 같이 구할 수 있다.
      $$ p = P\left(|Z| > \left|\frac{\overline{x} - \mu_0}{\sigma / \sqrt{n}}\right|\right) = P(|Z| > z_0) = P(Z > z_0) + P(Z < -z_0)$$ 
    • 이런 과정과 같이 표준정규분포 $Z \sim N(0, 1)$을 사용하여 모평균 $\mu$에 대한 검정을 하는 방법을 $Z$-검정법 ($Z$-test)라고 하기도 한다.

 

  •  
더보기

Examples

  • 사과의 평균 무게 $\mu$는 300g으로 알려져 있고 무게의 표준편차가 10인 정규분포를 따른다고 하고 어떤 과일가게에서 파는 사과는 평균 무게가 300을 넘는다고 주장하여 임의로 25개의 사과를 표본으로 추출하여 관측한 표본평균이 $\overline{x} = 305$일 때
    1. 귀무가설 $H_0$와 대립가설 $H_1$을 설정하시오.
      $$ H_0 : \mu = 300, ~~ H_1 : \mu > 300 $$
    2. 귀무가설이 참일 때 검정통계량과 검정통계량의 확률분포를 구하시오.
      $$ Z = \frac{\overline{X} - \mu_0}{\sigma / \sqrt{n}} = \frac{\overline{X} - 300}{10 / \sqrt{25}} = \frac{\overline{X} - 300}{2} \sim N(0, 1) $$
    3. 유의수준 $\alpha = 0.05$에 대한 기각역 $R$을 구하시오. 여기서 $z_{0.05} = 1.6$을 사용하시오.
      $$ \alpha = P(Z > z_{\alpha}) = P\left(\frac{\overline{X} - 300}{2} > 1.6\right) = P(\overline{X} > 303.2) $$ 
      $$ \therefore ~~ R = \{\overline{x} > 303.2\} $$
    4. 유의확률 $p$-value를 구하시오.
      $$ p = P\left(Z > \frac{\overline{x} - \mu_0}{\sigma / \sqrt{n}} = \frac{305 - 300}{10 / \sqrt{25}}\right) = P(Z > z_0 = 2.5) \approx 0.006 $$ 
    5. 가설을 검정하고 해석하시오.
      표본평균 $\overline{x}$에 대하여 $\overline{x} = 305 > 303.2$이며 기각역에 포함되므로 귀무가설 $H_0$를 기각하고 대립가설 $H_1$을 채택한다. 
      유의확률 $p$-value에 대하여 $p$-value $ = 0.006 $이며 유의수준 $\alpha = 0.05$보다 작으므로 귀무가설 $H_0$를 기각하고 대립가설 $H_1$을 채택한다.
      따라서 유의수준 $\alpha = 0.05$에서 과일가게에서 파는 사과의 평균 무게는 300을 넘는다고 할 수 있다.

 

  • 모평균의 검정 - 모분산이 알려지지 않은 경우
    • $X_1, X_2, \cdots, X_n$을 평균이 $\mu$인 정규모집단으로부터 얻은 확률표본인 경우에 귀무가설 $H_0 : \mu = \mu_0$의 검정을 위한 검정통계량은 다음과 같다.
      $$ T = \frac{\overline{X} - \mu_0}{S / \sqrt{n}} \sim t(n - 1) $$
    • 유의수준 $\alpha$에서 다음의 대립가설에 대하여 각 기각역은 다음과 같다.
      1. $H_1 : \mu > \mu_0$일 때, 기각역 $R_1 = \{t > t_{\alpha}(n - 1)\}$ (우측검정)
      2. $H_1 : \mu < \mu_0$일 때, 기각역 $R_2 = \{t < -t_{\alpha}(n - 1)\}$ (좌측검정)
      3. $H_1 : \mu \neq \mu_0$일 때, 기각역 $R_3 = \{|t| > t_{\alpha / 2}(n - 1)\}$ (양측검정)
    • 이런 과정과 같이 $t$-분포 $T \sim t(n - 1)$을 사용하여 모평균 $\mu$에 대한 검정을 하는 방법을 $t$-검정법 ($t$-test)라고 하기도 한다.

 

더보기

Examples

  • 사과의 평균 무게 $\mu$는 평균이 300인 정규분포를 따른다고 하고 어떤 과일가게에서 파는 사과는 평균 무게가 300을 넘는다고 주장하여 임의로 25개의 사과를 표본으로 추출하여 관측한 표본평균이 $\overline{x} = 305$, 표본분산이 $s^2 = 100$일 때
    1. 귀무가설 $H_0$와 대립가설 $H_1$을 설정하시오.
      $$ H_0 : \mu = 300, ~~ H_1 : \mu > 300 $$
    2. 귀무가설이 참일 때 검정통계량과 검정통계량의 확률분포를 구하시오.
      $$ T = \frac{\overline{X} - \mu_0}{S / \sqrt{n}} = \frac{\overline{X} - 300}{S / \sqrt{25}} = \frac{\overline{X} - 300}{S / 5} \sim t(24) $$
    3. 유의수준 $\alpha = 0.05$에 대한 기각역 $R$을 구하시오. 여기서 $t_{0.05}(24) = 1.7$을 사용하시오.
      $$ \alpha = P(T > t_{\alpha}(n - 1)) = P\left(\frac{\overline{X} - 300}{S / 5} > 1.7\right) $$ 
      $$ \therefore ~~ R = \left\{\frac{\overline{x} - 300}{s / 5} > 1.7\right\} $$
    4. 유의확률 $p$-value를 구하시오.
      $$ p = P\left(T > \frac{\overline{x} - \mu_0}{s / \sqrt{n}} = \frac{305 - 300}{10 / \sqrt{25}}\right) = P(T > t_0 = 2.5) \approx 0.01 $$ 
    5. 가설을 검정하고 해석하시오.
      $\frac{\overline{x} - 300}{s / 5} = 2.5 > 1.7$이며 기각역에 포함되므로 귀무가설 $H_0$를 기각하고 대립가설 $H_1$을 채택한다. 
      유의확률 $p$-value에 대하여 $p$-value $ = 0.01 $이며 유의수준 $\alpha = 0.05$보다 작으므로 귀무가설 $H_0$를 기각하고 대립가설 $H_1$을 채택한다. 
      따라서 유의수준 $\alpha = 0.05$에서 과일가게에서 파는 사과의 평균 무게는 300을 넘는다고 할 수 있다.

 

  • 모평균의 검정 - 모분산이 알려지지 않은 경우 - 2
    • $X_1, X_2, \cdots, X_n$을 평균이 $\mu$인 모집단으로부터 얻은 확률표본이라고 하고 대표본인 경우에 귀무가설 $H_0 : \mu = \mu_0$의 검정을 위한 검정통계량은 다음과 같다.
      $$ Z = \frac{\overline{X} - \mu_0}{S / \sqrt{n}} \sim N(0, 1) $$
    • 유의수준 $\alpha$에서 다음의 대립가설에 대하여 각 기각역은 다음과 같다.
      1. $H_1 : \mu > \mu_0$일 때, 기각역 $R_1 = \{z > z_{\alpha}\}$ (우측검정)
      2. $H_1 : \mu < \mu_0$일 때, 기각역 $R_2 = \{z < -z_{\alpha}\}$ (좌측검정)
      3. $H_1 : \mu \neq \mu_0$일 때, 기각역 $R_3 = \{|z| > z_{\alpha / 2}\}$ (양측검정)
    •  

 

더보기

Examples

  • 사과의 평균 무게 $\mu$는 300g으로 알려져 있고 새로운 연구 결과로 사과는 평균 무게가 300이 아니다라고 주장하여 임의로 100개의 사과를 표본으로 추출하여 관측한 표본평균이 $\overline{x} = 297$, 표본분산이 $s^2 = 20^2$일 때
    1. 귀무가설 $H_0$와 대립가설 $H_1$을 설정하시오.
      $$ H_0 : \mu = 300, ~~ H_1 : \mu \neq 300 $$
    2. 귀무가설이 참일 때 검정통계량과 검정통계량의 확률분포를 구하시오.
      $$ Z = \frac{\overline{X} - \mu_0}{S / \sqrt{n}} = \frac{\overline{X} - 300}{S / \sqrt{100}} = \frac{\overline{X} - 300}{S / 10} \sim N(0, 1) $$
    3. 유의수준 $\alpha = 0.05$에 대한 기각역 $R$을 구하시오. 여기서 $z_{0.025} = 1.9$를 사용하시오.
      $$ \alpha = P(|Z| > z_{\alpha / 2}) = P\left(\left|\frac{\overline{X} - 300}{S / 10}\right| > 1.9\right) $$ 
      $$ \therefore ~~ R = \left\{\frac{\overline{x} - 300}{s / 10} > 1.9\right\} \cup \left\{\frac{\overline{x} - 300}{s / 10} < -1.9\right\} $$
    4. 유의확률 $p$-value를 구하시오.
      $$ p = P\left(|Z| > \left|\frac{\overline{x} - \mu_0}{s / \sqrt{n}}\right| = \left|\frac{297 - 300}{20 / \sqrt{100}}\right|\right) = P(|Z| > z_0 = 1.5) \approx 0.14 $$ 
    5. 가설을 검정하고 해석하시오.
      $\frac{\overline{x} - 300}{s / 10} = -1.5 > -1.9$이며 기각역에 포함되지 않므로 귀무가설 $H_0$를 채택한다. 
      유의확률 $p$-value에 대하여 $p$-value $ = 0.14 $이며 유의수준 $\alpha = 0.05$보다 크므로 귀무가설 $H_0$를 채택한다. 
      따라서 유의수준 $\alpha = 0.05$에서 과일가게에서 파는 사과의 평균 무게는 300이라고 할 수 있다.

 

  • 모분산의 검정
    • $X_1, X_2, \cdots, X_n$을 분산이 $\sigma^2$인 정규모집단으로부터 얻은 확률표본인 경우에 귀무가설 $H_0 : \sigma^2 = \sigma^2_0$의 검정을 위한 검정통계량은 다음과 같다.
      $$ V = \frac{(n - 1)S^2}{\sigma^2_0} \sim \chi^2(n - 1) $$
    • 유의수준 $\alpha$에서 다음의 대립가설에 대하여 각 기각역은 다음과 같다.
      1. $H_1 : \sigma^2 > \sigma^2_0$일 때, 기각역 $R_1 = \{v > \chi^2_{\alpha}(n - 1)\}$ (우측검정)
      2. $H_1 : \sigma^2 < \sigma^2_0$일 때, 기각역 $R_2 = \{v < \chi^2_{1 - \alpha}(n - 1)\}$ (좌측검정)
      3. $H_1 : \sigma^2 \neq \sigma^2_0$일 때, 기각역 $R_3 = \{v < \chi^2_{1 - \alpha / 2}(n - 1)\} \cup \{v > \chi^2_{\alpha / 2}(n - 1)\}$ (양측검정)

 

더보기

Examples

  • 어떤 농장에서 생산되는 사과의 무게는 분산이 $\sigma^2$인 정규분포를 따르고 있다. 권장기준에 따르면 무게의 표준편차는 10 이내여야 하고 이를 검정하기 위해 임의로 26개의 사과를 표본으로 추출하여 관측한 표본분산이 $s^2 = 50$일 때
    1. 귀무가설 $H_0$와 대립가설 $H_1$을 설정하시오.
      $$ H_0 : \sigma^2 = 100, ~~ H_1 : \sigma^2 < 100 $$
    2. 귀무가설이 참일 때 검정통계량과 검정통계량의 확률분포를 구하시오.
      $$ V = \frac{(n - 1)S^2}{\sigma^2_0} = \frac{25 \cdot S^2}{100} = \frac{1}{4}S^2 \sim \chi^2(25) $$
    3. 유의수준 $\alpha = 0.05$에 대한 기각역 $R$을 구하시오. 여기서 $\chi^2_{0.95}(25) = 14.6$를 사용하시오.
      $$ \alpha = P(V < \chi^2_{1 - \alpha}(n - 1)) = P\left(\frac{1}{4}S^2 < 14.6\right) = P(S^2 < 58.4) $$ $$ \therefore ~~ R = \{s^2 < 58.4\} $$
    4. 유의확률 $p$-value를 구하시오.
      $$ p = P\left(V < \frac{1}{4}s^2 = \frac{1}{4}50\right) = P(V < v_0 = 12.5) \approx 0.02 $$ 
    5. 가설을 검정하고 해석하시오.
      $s^2 = 50 < 58.4$이며 기각역에 포함되므로 귀무가설 $H_0$를 기각한다. 
      유의확률 $p$-value에 대하여 $p$-value $ = 0.02 $이며 유의수준 $\alpha = 0.05$보다 작으므로 귀무가설 $H_0$를 기각한다. 
      따라서 유의수준 $\alpha = 0.05$에서 어떤 농장에서 생산되는 사과의 표준편차는 10 이내이며 권장기준을 만족한다고 할 수 있다.

 

  • 모비율의 검정
    • $X_1, X_2, \cdots, X_n$을 모수가 $p$인 $B(1, p)$인 확률분포로부터 얻은 확률표본이라고 하고 대표본인 경우에 귀무가설 $H_0 : p = p_0$의 검정을 위한 검정통계량은 다음과 같다.
      $$ Z = \frac{\hat p - p_0}{\sqrt{p_0 (1 - p_0) / n}} \sim N(0, 1) $$
    • 유의수준 $\alpha$에서 다음의 대립가설에 대하여 각 기각역은 다음과 같다.
      1. $H_1 : p > p_0$일 때, 기각역 $R_1 = \{z > z_{\alpha}\}$ (우측검정)
      2. $H_1 : p < p_0$일 때, 기각역 $R_2 = \{z < - z_{\alpha}\}$ (좌측검정)
      3. $H_1 : p \neq p_0$일 때, 기각역 $R_3 = \{|z| > z_{\alpha / 2}\}$ (양측검정)

 

더보기

Examples

  • 어떤 농장에서 생산되는 사과는 불량률이 $10\%$로 알려져 있다. 최근 새로운 기술을 통하여 불량률이 $10\%$ 미만으로 떨어졌다고 주장하여 이를 검정하기 위해 임의로 100개를 표본으로 추출하여 관측한 불량의 갯수가 6개일 때
    1. 귀무가설 $H_0$와 대립가설 $H_1$을 설정하시오.
      $$ H_0 : p = 0.1, ~~ H_1 : p < 0.1 $$
    2. 귀무가설이 참일 때 검정통계량과 검정통계량의 확률분포를 구하시오.
      $$ Z = \frac{\hat p - p_0}{\sqrt{p_0 (1 - p_0) / n}} = \frac{\hat p - 0.1}{\sqrt{0.1 \cdot 0.9 / 100}} = \frac{\hat p - 0.1}{0.03} \sim N(0, 1) $$
    3. 유의수준 $\alpha = 0.05$에 대한 기각역 $R$을 구하시오. 여기서 $z_{0.05} = 1.6$를 사용하시오.
      $$ \alpha = P(Z < -z_{\alpha}) = P\left(\frac{\hat p - 0.1}{0.03} < -1.6\right) = P(\hat p < 0.052) $$ $$ \therefore ~~ R = \{\hat p < 0.052\} $$
    4. 유의확률 $p$-value를 구하시오.
      $$ p = P\left(Z < -\frac{\hat p - 0.1}{0.03} = -\frac{0.06 - 0.1}{0.03}\right) = P(Z < -z_0 = -1.33) \approx 0.09 $$ 
    5. 가설을 검정하고 해석하시오.
      $\hat p = 0.06 > 0.052$이며 기각역에 포함되지 않으므로 귀무가설 $H_0$를 채택한다. 
      유의확률 $p$-value에 대하여 $p$-value $ = 0.09 $이며 유의수준 $\alpha = 0.05$보다 크므로 귀무가설 $H_0$를 채택한다. 
      따라서 유의수준 $\alpha = 0.05$에서 어떤 농장에서 생산되는 사과의 불량률은 $10\%$라고 할 수 있다.