Lecture/Elementary Stat

9. 순서통계량과 표본의 크기 (Order statistics and Sample size)

2023. 1. 30. 16:43
  •  순서통계량
    • $X_1, X_2, \cdots, X_n$을 $-\infty \le a < b \le \infty$에 대해 받침 (support) $S = (a, b)$를 갖는 pdf $f(x)$에 대한 확률분포에서 추출한 확률표본이라고 하고 $Y_1$을 $X_i$ 중 가장 작은 것, $Y_2$를 $X_i$ 중 두번째로 작은 것, 그리고 $Y_n$을 $X_i$ 중 가장 큰 것이라고 하면 $Y_i$는 $X_1, X_2, \cdots, X_n$의 $i$번째 순서통계량 (order statistics) 이라고 한다.
    • 받침은 공역에서 pdf가 양의 확률을 갖는 점들의 부분집합이다.
    • 순서통계량 $Y_i$는 $Y_1 < Y_2 < \cdots < Y_n$을 만족하며 오름차순으로 배열된 $X_1, X_2, \cdots, X_n$을 의미한다.
    • 앞의 조건에 근거하여 $Y_i$를 $X_1, X_2, \cdots, X_n$의 $i$번째 순서통계량이라고 하면 $Y_1, Y_2, \cdots, Y_n$의 joint pdf는 다음과 같다.
      $$ g(y_1, \cdots, y_n) = \bigg\{\begin{array}{lr}
               n! f(y_1) \cdots f(y_n), & a < y_1 < \cdots < y_n < b \\
               0, & \text{otherwise}
              \end{array} $$
    • $Y_i$의 marginal pdf는 다음 식으로 계산된다. 
      $$ g_i(y_i) = \int^{y_i}_a \cdots \int^{y_2}_a \int^b_{y_i} \cdots \int^b_{y_{n - 1}} n! f(y_1) \cdots f(y_n) ~ dy_n \cdots dy_{i + 1} dy_1 \cdots dy_{i - 1} $$
    • $Y_i$의 cdf는 다음 식으로 계산된다.
      $$ G_i(y) = P(Y_i \leq y) = \int^y_a g_i(y_i) dy_i $$
    • 정리하여 $Y_i$의 marginal pdf는 다음과 같다.
      $$ g_i(y_i) = \bigg\{\begin{array}{lr}
               \frac{n!}{(i - 1)!(n - i)!}[F(y_i)]^{i - 1}[1 - F(y_i)]^{n - i} f(y_i), & a < y_i < b \\
               0, & \text{otherwise}
              \end{array} $$
    • marginal pdf와 같은 방식으로 $Y_i$의 cdf는 다음과 같다.
      $$ G_i(y) = \bigg\{\begin{array}{lr}
               \sum^n_{k = i} \frac{n!}{k!(n - k)!}[F(y)]^{k}[1 - F(y)]^{n - k}, & a < y < b \\
               0, & \text{otherwise}
              \end{array} $$

 

더보기

Examples

  1. $ Y_1 < Y_2 < Y_3 < Y_4 < Y_5 $는 pdf 
    $ f(x) = \bigg\{\begin{array}{lr}
             1, & 0 < x < 1 \\
             0, & \text{otherwise}
            \end{array} $
    을 갖는 분포에서 추출한 크기 5인 확률표본의 순서통계량이다. $P(Y_3 < \frac{1}{2})$를 구하시오.
            \begin{equation*}
         \begin{aligned}
                 P\left(Y_3 < \frac{1}{2}\right)
                 & = \int^{\frac{1}{2}}_0 g_3(y_3) dy_3 \\
                 & = \int^{\frac{1}{2}}_0 \frac{5!}{2!2!} [F(y_3)]^2 [1 - F(y_3)]^2 f(y_3) dy_3 \\
                 & = 30 \int^{\frac{1}{2}}_0 (y_3)^2 (1 - y_3)^2 dy_3 \\
                 & = 30 \left[\frac{1}{3}y_3^3 - \frac{2}{4}y_3^4 + \frac{1}{5}y_3^5\right]^{\frac{1}{2}}_0 \\
                 & = \frac{1}{2}
             \end{aligned}
         \end{equation*}
  2. $ Y_1 < Y_2 < Y_3 < Y_4 < Y_5 $는 pdf 
    $ f(x) = \bigg\{\begin{array}{lr}
             1, & 0 < x < 1 \\
             0, & \text{otherwise}
            \end{array} $
    을 갖는 분포에서 추출한 크기 5인 확률표본의 순서통계량이다. $P(Y_3 < \frac{1}{2})$를 구하시오.
            \begin{equation*}
         \begin{aligned}
                 P\left(Y_3 < \frac{1}{2}\right)
                 & = G_3\left(\frac{1}{2}\right) \\
                 & = \sum^5_{k = 3} \frac{5!}{k!(5 - k)!}\left(\frac{1}{2}\right)^{k}\left(1 - \frac{1}{2}\right)^{5 - k} \\
                 & = \left\{\frac{5!}{3!2!}\left(\frac{1}{2}\right)^{3}\left(1 - \frac{1}{2}\right)^{2} + \frac{5!}{4!1!}\left(\frac{1}{2}\right)^{4}\left(1 - \frac{1}{2}\right)^{1} + \frac{5!}{5!0!}\left(\frac{1}{2}\right)^{5}\left(1 - \frac{1}{2}\right)^{0}\right\} \\
                 & = \left(\frac{1}{2}\right)^5(10 + 5 + 1) \\
                 & = \frac{1}{2}
             \end{aligned}
         \end{equation*}

 

  •  분위수
    • $X_1, X_2, \cdots, X_n$을 cdf $F(x)$에 대한 확률분포에서 추출한 확률표본이라고 하면 $0 < p < 1$에 대해 $P(X <q_p) = F(q_p) = p$인 $q_p$를 $p$ 분위수 (quantile) 이라고 정한다.
    • $Y_i$를 $X_1, X_2, \cdots, X_n$의 $i$번째 순서통계량이라고 하면 $k$가 $(n + 1)p$보다 작거나 같은 수 중에서 가장 큰 정수일때 $Y_k$는 $p$ 분위수 $q_p$의 점추정이다.

 

  • 분위수의 신뢰구간
    • 순서통계량과 같은 방식으로 다음의 식이 성립한다.
      $$ P(Y_i < q_p < Y_j) = \sum^{j - 1}_{k = i} \frac{n!}{k!(n - k)!} p^k (1 - p)^{n - k}$$
    • $ P(Y_i < q_p < Y_j) = 1 - \alpha $라 두면 구간 $(Y_i, Y_j)$가 $p$분위수 $q_p$를 포함할 확률이 $1 - \alpha$를 의미한다.
    • 즉 $p$분위수 $q_p$에 대한 $100(1 - \alpha)%$ 신뢰구간은 다음과 같다.
      $$ (Y_i, Y_j) $$

 

더보기

Examples

  • $ Y_1 < Y_2 < \cdots < Y_5 $은 pdf $f(x)$를 갖는 분포에서 추출한 크기 100인 확률표본의 순서통계량이라고 하고 0.5분위수, 즉 중간값 $q_{0.5}$의 $100(1 - \alpha)%$ 신뢰구간을 $(Y_1, Y_5)$라 할 때, $\alpha$를 구하시오. \begin{equation*}
         \begin{aligned}
                 P\left(Y_1 < q_{0.5} < Y_5\right)
                 & = \sum^{5 - 1}_{k = 1} \frac{5!}{k!(5 - k)!} (0.5)^k (1 - 0.5)^{5 - k} \\
                 & = (0.5)^5(5 + 10 + 10 + 5) \\
                 & = \frac{15}{16}
             \end{aligned}
         \end{equation*}
         $$ \therefore ~~~ \alpha = \frac{1}{16} $$

 

  • 표본크기의 계산
    • 신뢰구간 추정에 있어 신뢰도 $(1 - \alpha)$를 높이면 구간의 길이가 늘어나고 이를 줄이기 위해선 표본크기 $n$을 증가시켜야 한다.
    • 표본크기를 증가시키는 것은 비용을 수반한다.
    • 신뢰구간의 추정을 역으로 계산하여 원하는 오차한계를 얻기위한 표본크기 $n$을 결정할 수 있다.

 

  • 모평균 추정에 필요한 표본크기
    • 평균이 $\mu$인 모집단으로부터 얻은 확률표본이라고 하고 대표본인 경우에 신뢰도 $1 - \alpha$에서 오차한계를 $\delta$로 제한하는 표본의 크기는 다음 식을 이용하여 계산한다. 
      $$ n \ge \left(z_{\alpha / 2} \cdot \frac{S}{\delta}\right)^2 $$
    • 여기서 오차한계는 $z_{\alpha / 2} \frac{S}{\sqrt{n}}$이고 다음 과정을 통해 식을 유도할 수 있다. \begin{equation*}
           \begin{aligned}
                   ~~~ & ~~ z_{\alpha / 2} \frac{S}{\sqrt{n}} \le \delta \\
                   \Rightarrow & ~~ z_{\alpha / 2} \frac{S}{\delta} \le \sqrt{n} \\
                   \Rightarrow & ~~ \left(z_{\alpha / 2} \frac{S}{\delta}\right)^2 \le n 
               \end{aligned}
           \end{equation*}

 

더보기

Examples

  • 평균이 $\mu$인 모집단으로부터 크기가 10인 표본을 추출하여 계산된 표본분산이 $s^2 = 25$라고 할 때 모평균 $\mu$의 $90%$ 신뢰구간의 추정에서 오차한계 $\delta$를 1로 제한할 때 필요한 표본의 크기를 구하시오. 여기서 $z_{0.05} = 1.64$를 사용하시오. \begin{equation*}
         \begin{aligned}
                 \left(z_{\alpha / 2} \frac{s}{\delta}\right)^2
                 & = \left(1.64 \cdot \frac{5}{1}\right)^2 \\
                 & = (8.2)^2 \\
                 & = 67.24
             \end{aligned}
         \end{equation*}
         $$ \therefore ~~~ n \ge 67.24 $$

 

  • 모비율 추정에 필요한 표본크기
    • 모수가 $p$인 $B(1, p)$로부터 얻은 확률표본이라고 하고 대표본인 경우에 신뢰도 $1 - \alpha$에서 오차한계를 $\delta$로 제한하는 표본의 크기는 다음 식을 이용하여 계산한다. 
      $$ n \ge \hat p (1 - \hat p) \left(\frac{z_{\alpha / 2}}{\delta}\right)^2 $$
    • 여기서 오차한계는 $z_{\alpha / 2} \sqrt{\frac{\hat p (1 - \hat p)}{n}}$이고 다음 과정을 통해 식을 유도할 수 있다.  \begin{equation*}
           \begin{aligned}
                   ~~~ & ~~ z_{\alpha / 2} \sqrt{\frac{\hat p (1 - \hat p)}{n}} \le \delta \\
                   \Rightarrow & ~~ z_{\alpha / 2}^2 \frac{\hat p (1 - \hat p)}{n} \le \delta^2 \\
                   \Rightarrow & ~~ \hat p (1 - \hat p) \left(\frac{z_{\alpha / 2}}{\delta}\right)^2 \le n
               \end{aligned}
           \end{equation*}

 

더보기

Examples

  • 어떤 후보의 지지율 $p$를 조사하기 위해 크기가 10인 표본을 추출하여 조사한 결과 8명이 지지함을 선택했을때 모비율 $p$의 $95%$ 신뢰구간의 추정에서 오차한계 $\delta$를 0.1로 제한할 때 필요한 표본의 크기를 구하시오. 여기서 $z_{0.025} = 1.9$를 사용하시오.
            \begin{equation*}
         \begin{aligned}
                 \hat p (1 - \hat p) \left(\frac{z_{\alpha / 2}}{\delta}\right)^2
                 & = (0.8)(0.2) \left(\frac{1.9}{0.1}\right)^2 \\
                 & = 57.76
             \end{aligned}
         \end{equation*}
         $$ \therefore ~~~ n \ge 57.76 $$

'Lecture > Elementary Stat' 카테고리의 다른 글

11. 두 표본에 대한 가설의 검정 (Hypothesis tests for Two sample)  (0) 2023.02.14
10. 단일 표본에 대한 가설의 검정 (Hypothesis tests for One sample)  (0) 2023.02.10
8. 구간추정 (Interval estimation)  (0) 2023.01.26
7. 점추정 (Point estimation)  (0) 2023.01.26
6. 표본의 분포 (Sampling distribution)  (0) 2023.01.17
'Lecture/Elementary Stat' 카테고리의 다른 글
  • 11. 두 표본에 대한 가설의 검정 (Hypothesis tests for Two sample)
  • 10. 단일 표본에 대한 가설의 검정 (Hypothesis tests for One sample)
  • 8. 구간추정 (Interval estimation)
  • 7. 점추정 (Point estimation)
repaired_stat
repaired_stat
OMT
repaired_stat
repaired_stat
repaired_stat
전체
오늘
어제
  • 분류 전체보기 (64)
    • Stat (20)
      • Math Stat (0)
      • Spatial Stat (3)
      • Empirical Process (2)
      • Junk (15)
    • Software (1)
      • R (0)
      • SAS (0)
      • MATLAB (1)
    • Review (32)
      • Movie (32)
      • Product (0)
    • Lecture (11)
      • Elementary Stat (11)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • 해리슨 포드
  • 마담 싸이코
  • 기초통계학
  • 도그맨
  • 가설검정
  • 이변량분포
  • 연속형분포
  • 인디아나 존스
  • 스티븐 스필버그
  • 추정
  • 레디 오어 낫
  • 스마트폰을 떨어뜨렸을 뿐인데
  • 일표본
  • inner product
  • 이표본
  • 표본크기
  • 통계학
  • 순서통계량
  • 이병헌
  • 통계학개론

최근 댓글

최근 글

hELLO · Designed By 정상우.
repaired_stat
9. 순서통계량과 표본의 크기 (Order statistics and Sample size)
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.