Lecture/Elementary Stat

9. 순서통계량과 표본의 크기 (Order statistics and Sample size)

repaired_stat 2023. 1. 30. 16:43
  •  순서통계량
    • $X_1, X_2, \cdots, X_n$을 $-\infty \le a < b \le \infty$에 대해 받침 (support) $S = (a, b)$를 갖는 pdf $f(x)$에 대한 확률분포에서 추출한 확률표본이라고 하고 $Y_1$을 $X_i$ 중 가장 작은 것, $Y_2$를 $X_i$ 중 두번째로 작은 것, 그리고 $Y_n$을 $X_i$ 중 가장 큰 것이라고 하면 $Y_i$는 $X_1, X_2, \cdots, X_n$의 $i$번째 순서통계량 (order statistics) 이라고 한다.
    • 받침은 공역에서 pdf가 양의 확률을 갖는 점들의 부분집합이다.
    • 순서통계량 $Y_i$는 $Y_1 < Y_2 < \cdots < Y_n$을 만족하며 오름차순으로 배열된 $X_1, X_2, \cdots, X_n$을 의미한다.
    • 앞의 조건에 근거하여 $Y_i$를 $X_1, X_2, \cdots, X_n$의 $i$번째 순서통계량이라고 하면 $Y_1, Y_2, \cdots, Y_n$의 joint pdf는 다음과 같다.
      $$ g(y_1, \cdots, y_n) = \bigg\{\begin{array}{lr}
               n! f(y_1) \cdots f(y_n), & a < y_1 < \cdots < y_n < b \\
               0, & \text{otherwise}
              \end{array} $$
    • $Y_i$의 marginal pdf는 다음 식으로 계산된다. 
      $$ g_i(y_i) = \int^{y_i}_a \cdots \int^{y_2}_a \int^b_{y_i} \cdots \int^b_{y_{n - 1}} n! f(y_1) \cdots f(y_n) ~ dy_n \cdots dy_{i + 1} dy_1 \cdots dy_{i - 1} $$
    • $Y_i$의 cdf는 다음 식으로 계산된다.
      $$ G_i(y) = P(Y_i \leq y) = \int^y_a g_i(y_i) dy_i $$
    • 정리하여 $Y_i$의 marginal pdf는 다음과 같다.
      $$ g_i(y_i) = \bigg\{\begin{array}{lr}
               \frac{n!}{(i - 1)!(n - i)!}[F(y_i)]^{i - 1}[1 - F(y_i)]^{n - i} f(y_i), & a < y_i < b \\
               0, & \text{otherwise}
              \end{array} $$
    • marginal pdf와 같은 방식으로 $Y_i$의 cdf는 다음과 같다.
      $$ G_i(y) = \bigg\{\begin{array}{lr}
               \sum^n_{k = i} \frac{n!}{k!(n - k)!}[F(y)]^{k}[1 - F(y)]^{n - k}, & a < y < b \\
               0, & \text{otherwise}
              \end{array} $$

 

더보기

Examples

  1. $ Y_1 < Y_2 < Y_3 < Y_4 < Y_5 $는 pdf 
    $ f(x) = \bigg\{\begin{array}{lr}
             1, & 0 < x < 1 \\
             0, & \text{otherwise}
            \end{array} $
    을 갖는 분포에서 추출한 크기 5인 확률표본의 순서통계량이다. $P(Y_3 < \frac{1}{2})$를 구하시오.
            \begin{equation*}
         \begin{aligned}
                 P\left(Y_3 < \frac{1}{2}\right)
                 & = \int^{\frac{1}{2}}_0 g_3(y_3) dy_3 \\
                 & = \int^{\frac{1}{2}}_0 \frac{5!}{2!2!} [F(y_3)]^2 [1 - F(y_3)]^2 f(y_3) dy_3 \\
                 & = 30 \int^{\frac{1}{2}}_0 (y_3)^2 (1 - y_3)^2 dy_3 \\
                 & = 30 \left[\frac{1}{3}y_3^3 - \frac{2}{4}y_3^4 + \frac{1}{5}y_3^5\right]^{\frac{1}{2}}_0 \\
                 & = \frac{1}{2}
             \end{aligned}
         \end{equation*}
  2. $ Y_1 < Y_2 < Y_3 < Y_4 < Y_5 $는 pdf 
    $ f(x) = \bigg\{\begin{array}{lr}
             1, & 0 < x < 1 \\
             0, & \text{otherwise}
            \end{array} $
    을 갖는 분포에서 추출한 크기 5인 확률표본의 순서통계량이다. $P(Y_3 < \frac{1}{2})$를 구하시오.
            \begin{equation*}
         \begin{aligned}
                 P\left(Y_3 < \frac{1}{2}\right)
                 & = G_3\left(\frac{1}{2}\right) \\
                 & = \sum^5_{k = 3} \frac{5!}{k!(5 - k)!}\left(\frac{1}{2}\right)^{k}\left(1 - \frac{1}{2}\right)^{5 - k} \\
                 & = \left\{\frac{5!}{3!2!}\left(\frac{1}{2}\right)^{3}\left(1 - \frac{1}{2}\right)^{2} + \frac{5!}{4!1!}\left(\frac{1}{2}\right)^{4}\left(1 - \frac{1}{2}\right)^{1} + \frac{5!}{5!0!}\left(\frac{1}{2}\right)^{5}\left(1 - \frac{1}{2}\right)^{0}\right\} \\
                 & = \left(\frac{1}{2}\right)^5(10 + 5 + 1) \\
                 & = \frac{1}{2}
             \end{aligned}
         \end{equation*}

 

  •  분위수
    • $X_1, X_2, \cdots, X_n$을 cdf $F(x)$에 대한 확률분포에서 추출한 확률표본이라고 하면 $0 < p < 1$에 대해 $P(X <q_p) = F(q_p) = p$인 $q_p$를 $p$ 분위수 (quantile) 이라고 정한다.
    • $Y_i$를 $X_1, X_2, \cdots, X_n$의 $i$번째 순서통계량이라고 하면 $k$가 $(n + 1)p$보다 작거나 같은 수 중에서 가장 큰 정수일때 $Y_k$는 $p$ 분위수 $q_p$의 점추정이다.

 

  • 분위수의 신뢰구간
    • 순서통계량과 같은 방식으로 다음의 식이 성립한다.
      $$ P(Y_i < q_p < Y_j) = \sum^{j - 1}_{k = i} \frac{n!}{k!(n - k)!} p^k (1 - p)^{n - k}$$
    • $ P(Y_i < q_p < Y_j) = 1 - \alpha $라 두면 구간 $(Y_i, Y_j)$가 $p$분위수 $q_p$를 포함할 확률이 $1 - \alpha$를 의미한다.
    • 즉 $p$분위수 $q_p$에 대한 $100(1 - \alpha)%$ 신뢰구간은 다음과 같다.
      $$ (Y_i, Y_j) $$

 

더보기

Examples

  • $ Y_1 < Y_2 < \cdots < Y_5 $은 pdf $f(x)$를 갖는 분포에서 추출한 크기 100인 확률표본의 순서통계량이라고 하고 0.5분위수, 즉 중간값 $q_{0.5}$의 $100(1 - \alpha)%$ 신뢰구간을 $(Y_1, Y_5)$라 할 때, $\alpha$를 구하시오. \begin{equation*}
         \begin{aligned}
                 P\left(Y_1 < q_{0.5} < Y_5\right)
                 & = \sum^{5 - 1}_{k = 1} \frac{5!}{k!(5 - k)!} (0.5)^k (1 - 0.5)^{5 - k} \\
                 & = (0.5)^5(5 + 10 + 10 + 5) \\
                 & = \frac{15}{16}
             \end{aligned}
         \end{equation*}
         $$ \therefore ~~~ \alpha = \frac{1}{16} $$

 

  • 표본크기의 계산
    • 신뢰구간 추정에 있어 신뢰도 $(1 - \alpha)$를 높이면 구간의 길이가 늘어나고 이를 줄이기 위해선 표본크기 $n$을 증가시켜야 한다.
    • 표본크기를 증가시키는 것은 비용을 수반한다.
    • 신뢰구간의 추정을 역으로 계산하여 원하는 오차한계를 얻기위한 표본크기 $n$을 결정할 수 있다.

 

  • 모평균 추정에 필요한 표본크기
    • 평균이 $\mu$인 모집단으로부터 얻은 확률표본이라고 하고 대표본인 경우에 신뢰도 $1 - \alpha$에서 오차한계를 $\delta$로 제한하는 표본의 크기는 다음 식을 이용하여 계산한다. 
      $$ n \ge \left(z_{\alpha / 2} \cdot \frac{S}{\delta}\right)^2 $$
    • 여기서 오차한계는 $z_{\alpha / 2} \frac{S}{\sqrt{n}}$이고 다음 과정을 통해 식을 유도할 수 있다. \begin{equation*}
           \begin{aligned}
                   ~~~ & ~~ z_{\alpha / 2} \frac{S}{\sqrt{n}} \le \delta \\
                   \Rightarrow & ~~ z_{\alpha / 2} \frac{S}{\delta} \le \sqrt{n} \\
                   \Rightarrow & ~~ \left(z_{\alpha / 2} \frac{S}{\delta}\right)^2 \le n 
               \end{aligned}
           \end{equation*}

 

더보기

Examples

  • 평균이 $\mu$인 모집단으로부터 크기가 10인 표본을 추출하여 계산된 표본분산이 $s^2 = 25$라고 할 때 모평균 $\mu$의 $90%$ 신뢰구간의 추정에서 오차한계 $\delta$를 1로 제한할 때 필요한 표본의 크기를 구하시오. 여기서 $z_{0.05} = 1.64$를 사용하시오. \begin{equation*}
         \begin{aligned}
                 \left(z_{\alpha / 2} \frac{s}{\delta}\right)^2
                 & = \left(1.64 \cdot \frac{5}{1}\right)^2 \\
                 & = (8.2)^2 \\
                 & = 67.24
             \end{aligned}
         \end{equation*}
         $$ \therefore ~~~ n \ge 67.24 $$

 

  • 모비율 추정에 필요한 표본크기
    • 모수가 $p$인 $B(1, p)$로부터 얻은 확률표본이라고 하고 대표본인 경우에 신뢰도 $1 - \alpha$에서 오차한계를 $\delta$로 제한하는 표본의 크기는 다음 식을 이용하여 계산한다. 
      $$ n \ge \hat p (1 - \hat p) \left(\frac{z_{\alpha / 2}}{\delta}\right)^2 $$
    • 여기서 오차한계는 $z_{\alpha / 2} \sqrt{\frac{\hat p (1 - \hat p)}{n}}$이고 다음 과정을 통해 식을 유도할 수 있다.  \begin{equation*}
           \begin{aligned}
                   ~~~ & ~~ z_{\alpha / 2} \sqrt{\frac{\hat p (1 - \hat p)}{n}} \le \delta \\
                   \Rightarrow & ~~ z_{\alpha / 2}^2 \frac{\hat p (1 - \hat p)}{n} \le \delta^2 \\
                   \Rightarrow & ~~ \hat p (1 - \hat p) \left(\frac{z_{\alpha / 2}}{\delta}\right)^2 \le n
               \end{aligned}
           \end{equation*}

 

더보기

Examples

  • 어떤 후보의 지지율 $p$를 조사하기 위해 크기가 10인 표본을 추출하여 조사한 결과 8명이 지지함을 선택했을때 모비율 $p$의 $95%$ 신뢰구간의 추정에서 오차한계 $\delta$를 0.1로 제한할 때 필요한 표본의 크기를 구하시오. 여기서 $z_{0.025} = 1.9$를 사용하시오.
            \begin{equation*}
         \begin{aligned}
                 \hat p (1 - \hat p) \left(\frac{z_{\alpha / 2}}{\delta}\right)^2
                 & = (0.8)(0.2) \left(\frac{1.9}{0.1}\right)^2 \\
                 & = 57.76
             \end{aligned}
         \end{equation*}
         $$ \therefore ~~~ n \ge 57.76 $$