- 순서통계량
- $X_1, X_2, \cdots, X_n$을 $-\infty \le a < b \le \infty$에 대해 받침 (support) $S = (a, b)$를 갖는 pdf $f(x)$에 대한 확률분포에서 추출한 확률표본이라고 하고 $Y_1$을 $X_i$ 중 가장 작은 것, $Y_2$를 $X_i$ 중 두번째로 작은 것, 그리고 $Y_n$을 $X_i$ 중 가장 큰 것이라고 하면 $Y_i$는 $X_1, X_2, \cdots, X_n$의 $i$번째 순서통계량 (order statistics) 이라고 한다.
- 받침은 공역에서 pdf가 양의 확률을 갖는 점들의 부분집합이다.
- 순서통계량 $Y_i$는 $Y_1 < Y_2 < \cdots < Y_n$을 만족하며 오름차순으로 배열된 $X_1, X_2, \cdots, X_n$을 의미한다.
- 앞의 조건에 근거하여 $Y_i$를 $X_1, X_2, \cdots, X_n$의 $i$번째 순서통계량이라고 하면 $Y_1, Y_2, \cdots, Y_n$의 joint pdf는 다음과 같다.
$$ g(y_1, \cdots, y_n) = \bigg\{\begin{array}{lr}
n! f(y_1) \cdots f(y_n), & a < y_1 < \cdots < y_n < b \\
0, & \text{otherwise}
\end{array} $$ - $Y_i$의 marginal pdf는 다음 식으로 계산된다.
$$ g_i(y_i) = \int^{y_i}_a \cdots \int^{y_2}_a \int^b_{y_i} \cdots \int^b_{y_{n - 1}} n! f(y_1) \cdots f(y_n) ~ dy_n \cdots dy_{i + 1} dy_1 \cdots dy_{i - 1} $$ - $Y_i$의 cdf는 다음 식으로 계산된다.
$$ G_i(y) = P(Y_i \leq y) = \int^y_a g_i(y_i) dy_i $$ - 정리하여 $Y_i$의 marginal pdf는 다음과 같다.
$$ g_i(y_i) = \bigg\{\begin{array}{lr}
\frac{n!}{(i - 1)!(n - i)!}[F(y_i)]^{i - 1}[1 - F(y_i)]^{n - i} f(y_i), & a < y_i < b \\
0, & \text{otherwise}
\end{array} $$ - marginal pdf와 같은 방식으로 $Y_i$의 cdf는 다음과 같다.
$$ G_i(y) = \bigg\{\begin{array}{lr}
\sum^n_{k = i} \frac{n!}{k!(n - k)!}[F(y)]^{k}[1 - F(y)]^{n - k}, & a < y < b \\
0, & \text{otherwise}
\end{array} $$
더보기
Examples
- $ Y_1 < Y_2 < Y_3 < Y_4 < Y_5 $는 pdf
$ f(x) = \bigg\{\begin{array}{lr}
1, & 0 < x < 1 \\
0, & \text{otherwise}
\end{array} $
을 갖는 분포에서 추출한 크기 5인 확률표본의 순서통계량이다. $P(Y_3 < \frac{1}{2})$를 구하시오.
\begin{equation*}
\begin{aligned}
P\left(Y_3 < \frac{1}{2}\right)
& = \int^{\frac{1}{2}}_0 g_3(y_3) dy_3 \\
& = \int^{\frac{1}{2}}_0 \frac{5!}{2!2!} [F(y_3)]^2 [1 - F(y_3)]^2 f(y_3) dy_3 \\
& = 30 \int^{\frac{1}{2}}_0 (y_3)^2 (1 - y_3)^2 dy_3 \\
& = 30 \left[\frac{1}{3}y_3^3 - \frac{2}{4}y_3^4 + \frac{1}{5}y_3^5\right]^{\frac{1}{2}}_0 \\
& = \frac{1}{2}
\end{aligned}
\end{equation*} - $ Y_1 < Y_2 < Y_3 < Y_4 < Y_5 $는 pdf
$ f(x) = \bigg\{\begin{array}{lr}
1, & 0 < x < 1 \\
0, & \text{otherwise}
\end{array} $
을 갖는 분포에서 추출한 크기 5인 확률표본의 순서통계량이다. $P(Y_3 < \frac{1}{2})$를 구하시오.
\begin{equation*}
\begin{aligned}
P\left(Y_3 < \frac{1}{2}\right)
& = G_3\left(\frac{1}{2}\right) \\
& = \sum^5_{k = 3} \frac{5!}{k!(5 - k)!}\left(\frac{1}{2}\right)^{k}\left(1 - \frac{1}{2}\right)^{5 - k} \\
& = \left\{\frac{5!}{3!2!}\left(\frac{1}{2}\right)^{3}\left(1 - \frac{1}{2}\right)^{2} + \frac{5!}{4!1!}\left(\frac{1}{2}\right)^{4}\left(1 - \frac{1}{2}\right)^{1} + \frac{5!}{5!0!}\left(\frac{1}{2}\right)^{5}\left(1 - \frac{1}{2}\right)^{0}\right\} \\
& = \left(\frac{1}{2}\right)^5(10 + 5 + 1) \\
& = \frac{1}{2}
\end{aligned}
\end{equation*}
- 분위수
- $X_1, X_2, \cdots, X_n$을 cdf $F(x)$에 대한 확률분포에서 추출한 확률표본이라고 하면 $0 < p < 1$에 대해 $P(X <q_p) = F(q_p) = p$인 $q_p$를 $p$ 분위수 (quantile) 이라고 정한다.
- $Y_i$를 $X_1, X_2, \cdots, X_n$의 $i$번째 순서통계량이라고 하면 $k$가 $(n + 1)p$보다 작거나 같은 수 중에서 가장 큰 정수일때 $Y_k$는 $p$ 분위수 $q_p$의 점추정이다.
- 분위수의 신뢰구간
- 순서통계량과 같은 방식으로 다음의 식이 성립한다.
$$ P(Y_i < q_p < Y_j) = \sum^{j - 1}_{k = i} \frac{n!}{k!(n - k)!} p^k (1 - p)^{n - k}$$ - $ P(Y_i < q_p < Y_j) = 1 - \alpha $라 두면 구간 $(Y_i, Y_j)$가 $p$분위수 $q_p$를 포함할 확률이 $1 - \alpha$를 의미한다.
- 즉 $p$분위수 $q_p$에 대한 $100(1 - \alpha)%$ 신뢰구간은 다음과 같다.
$$ (Y_i, Y_j) $$
- 순서통계량과 같은 방식으로 다음의 식이 성립한다.
더보기
Examples
- $ Y_1 < Y_2 < \cdots < Y_5 $은 pdf $f(x)$를 갖는 분포에서 추출한 크기 100인 확률표본의 순서통계량이라고 하고 0.5분위수, 즉 중간값 $q_{0.5}$의 $100(1 - \alpha)%$ 신뢰구간을 $(Y_1, Y_5)$라 할 때, $\alpha$를 구하시오. \begin{equation*}
\begin{aligned}
P\left(Y_1 < q_{0.5} < Y_5\right)
& = \sum^{5 - 1}_{k = 1} \frac{5!}{k!(5 - k)!} (0.5)^k (1 - 0.5)^{5 - k} \\
& = (0.5)^5(5 + 10 + 10 + 5) \\
& = \frac{15}{16}
\end{aligned}
\end{equation*}
$$ \therefore ~~~ \alpha = \frac{1}{16} $$
- 표본크기의 계산
- 신뢰구간 추정에 있어 신뢰도 $(1 - \alpha)$를 높이면 구간의 길이가 늘어나고 이를 줄이기 위해선 표본크기 $n$을 증가시켜야 한다.
- 표본크기를 증가시키는 것은 비용을 수반한다.
- 신뢰구간의 추정을 역으로 계산하여 원하는 오차한계를 얻기위한 표본크기 $n$을 결정할 수 있다.
- 모평균 추정에 필요한 표본크기
- 평균이 $\mu$인 모집단으로부터 얻은 확률표본이라고 하고 대표본인 경우에 신뢰도 $1 - \alpha$에서 오차한계를 $\delta$로 제한하는 표본의 크기는 다음 식을 이용하여 계산한다.
$$ n \ge \left(z_{\alpha / 2} \cdot \frac{S}{\delta}\right)^2 $$ - 여기서 오차한계는 $z_{\alpha / 2} \frac{S}{\sqrt{n}}$이고 다음 과정을 통해 식을 유도할 수 있다. \begin{equation*}
\begin{aligned}
~~~ & ~~ z_{\alpha / 2} \frac{S}{\sqrt{n}} \le \delta \\
\Rightarrow & ~~ z_{\alpha / 2} \frac{S}{\delta} \le \sqrt{n} \\
\Rightarrow & ~~ \left(z_{\alpha / 2} \frac{S}{\delta}\right)^2 \le n
\end{aligned}
\end{equation*}
- 평균이 $\mu$인 모집단으로부터 얻은 확률표본이라고 하고 대표본인 경우에 신뢰도 $1 - \alpha$에서 오차한계를 $\delta$로 제한하는 표본의 크기는 다음 식을 이용하여 계산한다.
더보기
Examples
- 평균이 $\mu$인 모집단으로부터 크기가 10인 표본을 추출하여 계산된 표본분산이 $s^2 = 25$라고 할 때 모평균 $\mu$의 $90%$ 신뢰구간의 추정에서 오차한계 $\delta$를 1로 제한할 때 필요한 표본의 크기를 구하시오. 여기서 $z_{0.05} = 1.64$를 사용하시오. \begin{equation*}
\begin{aligned}
\left(z_{\alpha / 2} \frac{s}{\delta}\right)^2
& = \left(1.64 \cdot \frac{5}{1}\right)^2 \\
& = (8.2)^2 \\
& = 67.24
\end{aligned}
\end{equation*}
$$ \therefore ~~~ n \ge 67.24 $$
- 모비율 추정에 필요한 표본크기
- 모수가 $p$인 $B(1, p)$로부터 얻은 확률표본이라고 하고 대표본인 경우에 신뢰도 $1 - \alpha$에서 오차한계를 $\delta$로 제한하는 표본의 크기는 다음 식을 이용하여 계산한다.
$$ n \ge \hat p (1 - \hat p) \left(\frac{z_{\alpha / 2}}{\delta}\right)^2 $$ - 여기서 오차한계는 $z_{\alpha / 2} \sqrt{\frac{\hat p (1 - \hat p)}{n}}$이고 다음 과정을 통해 식을 유도할 수 있다. \begin{equation*}
\begin{aligned}
~~~ & ~~ z_{\alpha / 2} \sqrt{\frac{\hat p (1 - \hat p)}{n}} \le \delta \\
\Rightarrow & ~~ z_{\alpha / 2}^2 \frac{\hat p (1 - \hat p)}{n} \le \delta^2 \\
\Rightarrow & ~~ \hat p (1 - \hat p) \left(\frac{z_{\alpha / 2}}{\delta}\right)^2 \le n
\end{aligned}
\end{equation*}
- 모수가 $p$인 $B(1, p)$로부터 얻은 확률표본이라고 하고 대표본인 경우에 신뢰도 $1 - \alpha$에서 오차한계를 $\delta$로 제한하는 표본의 크기는 다음 식을 이용하여 계산한다.
더보기
Examples
- 어떤 후보의 지지율 $p$를 조사하기 위해 크기가 10인 표본을 추출하여 조사한 결과 8명이 지지함을 선택했을때 모비율 $p$의 $95%$ 신뢰구간의 추정에서 오차한계 $\delta$를 0.1로 제한할 때 필요한 표본의 크기를 구하시오. 여기서 $z_{0.025} = 1.9$를 사용하시오.
\begin{equation*}
\begin{aligned}
\hat p (1 - \hat p) \left(\frac{z_{\alpha / 2}}{\delta}\right)^2
& = (0.8)(0.2) \left(\frac{1.9}{0.1}\right)^2 \\
& = 57.76
\end{aligned}
\end{equation*}
$$ \therefore ~~~ n \ge 57.76 $$
'Lecture > Elementary Stat' 카테고리의 다른 글
11. 두 표본에 대한 가설의 검정 (Hypothesis tests for Two sample) (0) | 2023.02.14 |
---|---|
10. 단일 표본에 대한 가설의 검정 (Hypothesis tests for One sample) (0) | 2023.02.10 |
8. 구간추정 (Interval estimation) (0) | 2023.01.26 |
7. 점추정 (Point estimation) (0) | 2023.01.26 |
6. 표본의 분포 (Sampling distribution) (0) | 2023.01.17 |
- 순서통계량
- $X_1, X_2, \cdots, X_n$을 $-\infty \le a < b \le \infty$에 대해 받침 (support) $S = (a, b)$를 갖는 pdf $f(x)$에 대한 확률분포에서 추출한 확률표본이라고 하고 $Y_1$을 $X_i$ 중 가장 작은 것, $Y_2$를 $X_i$ 중 두번째로 작은 것, 그리고 $Y_n$을 $X_i$ 중 가장 큰 것이라고 하면 $Y_i$는 $X_1, X_2, \cdots, X_n$의 $i$번째 순서통계량 (order statistics) 이라고 한다.
- 받침은 공역에서 pdf가 양의 확률을 갖는 점들의 부분집합이다.
- 순서통계량 $Y_i$는 $Y_1 < Y_2 < \cdots < Y_n$을 만족하며 오름차순으로 배열된 $X_1, X_2, \cdots, X_n$을 의미한다.
- 앞의 조건에 근거하여 $Y_i$를 $X_1, X_2, \cdots, X_n$의 $i$번째 순서통계량이라고 하면 $Y_1, Y_2, \cdots, Y_n$의 joint pdf는 다음과 같다.
$$ g(y_1, \cdots, y_n) = \bigg\{\begin{array}{lr}
n! f(y_1) \cdots f(y_n), & a < y_1 < \cdots < y_n < b \\
0, & \text{otherwise}
\end{array} $$ - $Y_i$의 marginal pdf는 다음 식으로 계산된다.
$$ g_i(y_i) = \int^{y_i}_a \cdots \int^{y_2}_a \int^b_{y_i} \cdots \int^b_{y_{n - 1}} n! f(y_1) \cdots f(y_n) ~ dy_n \cdots dy_{i + 1} dy_1 \cdots dy_{i - 1} $$ - $Y_i$의 cdf는 다음 식으로 계산된다.
$$ G_i(y) = P(Y_i \leq y) = \int^y_a g_i(y_i) dy_i $$ - 정리하여 $Y_i$의 marginal pdf는 다음과 같다.
$$ g_i(y_i) = \bigg\{\begin{array}{lr}
\frac{n!}{(i - 1)!(n - i)!}[F(y_i)]^{i - 1}[1 - F(y_i)]^{n - i} f(y_i), & a < y_i < b \\
0, & \text{otherwise}
\end{array} $$ - marginal pdf와 같은 방식으로 $Y_i$의 cdf는 다음과 같다.
$$ G_i(y) = \bigg\{\begin{array}{lr}
\sum^n_{k = i} \frac{n!}{k!(n - k)!}[F(y)]^{k}[1 - F(y)]^{n - k}, & a < y < b \\
0, & \text{otherwise}
\end{array} $$
더보기
Examples
- $ Y_1 < Y_2 < Y_3 < Y_4 < Y_5 $는 pdf
$ f(x) = \bigg\{\begin{array}{lr}
1, & 0 < x < 1 \\
0, & \text{otherwise}
\end{array} $
을 갖는 분포에서 추출한 크기 5인 확률표본의 순서통계량이다. $P(Y_3 < \frac{1}{2})$를 구하시오.
\begin{equation*}
\begin{aligned}
P\left(Y_3 < \frac{1}{2}\right)
& = \int^{\frac{1}{2}}_0 g_3(y_3) dy_3 \\
& = \int^{\frac{1}{2}}_0 \frac{5!}{2!2!} [F(y_3)]^2 [1 - F(y_3)]^2 f(y_3) dy_3 \\
& = 30 \int^{\frac{1}{2}}_0 (y_3)^2 (1 - y_3)^2 dy_3 \\
& = 30 \left[\frac{1}{3}y_3^3 - \frac{2}{4}y_3^4 + \frac{1}{5}y_3^5\right]^{\frac{1}{2}}_0 \\
& = \frac{1}{2}
\end{aligned}
\end{equation*} - $ Y_1 < Y_2 < Y_3 < Y_4 < Y_5 $는 pdf
$ f(x) = \bigg\{\begin{array}{lr}
1, & 0 < x < 1 \\
0, & \text{otherwise}
\end{array} $
을 갖는 분포에서 추출한 크기 5인 확률표본의 순서통계량이다. $P(Y_3 < \frac{1}{2})$를 구하시오.
\begin{equation*}
\begin{aligned}
P\left(Y_3 < \frac{1}{2}\right)
& = G_3\left(\frac{1}{2}\right) \\
& = \sum^5_{k = 3} \frac{5!}{k!(5 - k)!}\left(\frac{1}{2}\right)^{k}\left(1 - \frac{1}{2}\right)^{5 - k} \\
& = \left\{\frac{5!}{3!2!}\left(\frac{1}{2}\right)^{3}\left(1 - \frac{1}{2}\right)^{2} + \frac{5!}{4!1!}\left(\frac{1}{2}\right)^{4}\left(1 - \frac{1}{2}\right)^{1} + \frac{5!}{5!0!}\left(\frac{1}{2}\right)^{5}\left(1 - \frac{1}{2}\right)^{0}\right\} \\
& = \left(\frac{1}{2}\right)^5(10 + 5 + 1) \\
& = \frac{1}{2}
\end{aligned}
\end{equation*}
- 분위수
- $X_1, X_2, \cdots, X_n$을 cdf $F(x)$에 대한 확률분포에서 추출한 확률표본이라고 하면 $0 < p < 1$에 대해 $P(X <q_p) = F(q_p) = p$인 $q_p$를 $p$ 분위수 (quantile) 이라고 정한다.
- $Y_i$를 $X_1, X_2, \cdots, X_n$의 $i$번째 순서통계량이라고 하면 $k$가 $(n + 1)p$보다 작거나 같은 수 중에서 가장 큰 정수일때 $Y_k$는 $p$ 분위수 $q_p$의 점추정이다.
- 분위수의 신뢰구간
- 순서통계량과 같은 방식으로 다음의 식이 성립한다.
$$ P(Y_i < q_p < Y_j) = \sum^{j - 1}_{k = i} \frac{n!}{k!(n - k)!} p^k (1 - p)^{n - k}$$ - $ P(Y_i < q_p < Y_j) = 1 - \alpha $라 두면 구간 $(Y_i, Y_j)$가 $p$분위수 $q_p$를 포함할 확률이 $1 - \alpha$를 의미한다.
- 즉 $p$분위수 $q_p$에 대한 $100(1 - \alpha)%$ 신뢰구간은 다음과 같다.
$$ (Y_i, Y_j) $$
- 순서통계량과 같은 방식으로 다음의 식이 성립한다.
더보기
Examples
- $ Y_1 < Y_2 < \cdots < Y_5 $은 pdf $f(x)$를 갖는 분포에서 추출한 크기 100인 확률표본의 순서통계량이라고 하고 0.5분위수, 즉 중간값 $q_{0.5}$의 $100(1 - \alpha)%$ 신뢰구간을 $(Y_1, Y_5)$라 할 때, $\alpha$를 구하시오. \begin{equation*}
\begin{aligned}
P\left(Y_1 < q_{0.5} < Y_5\right)
& = \sum^{5 - 1}_{k = 1} \frac{5!}{k!(5 - k)!} (0.5)^k (1 - 0.5)^{5 - k} \\
& = (0.5)^5(5 + 10 + 10 + 5) \\
& = \frac{15}{16}
\end{aligned}
\end{equation*}
$$ \therefore ~~~ \alpha = \frac{1}{16} $$
- 표본크기의 계산
- 신뢰구간 추정에 있어 신뢰도 $(1 - \alpha)$를 높이면 구간의 길이가 늘어나고 이를 줄이기 위해선 표본크기 $n$을 증가시켜야 한다.
- 표본크기를 증가시키는 것은 비용을 수반한다.
- 신뢰구간의 추정을 역으로 계산하여 원하는 오차한계를 얻기위한 표본크기 $n$을 결정할 수 있다.
- 모평균 추정에 필요한 표본크기
- 평균이 $\mu$인 모집단으로부터 얻은 확률표본이라고 하고 대표본인 경우에 신뢰도 $1 - \alpha$에서 오차한계를 $\delta$로 제한하는 표본의 크기는 다음 식을 이용하여 계산한다.
$$ n \ge \left(z_{\alpha / 2} \cdot \frac{S}{\delta}\right)^2 $$ - 여기서 오차한계는 $z_{\alpha / 2} \frac{S}{\sqrt{n}}$이고 다음 과정을 통해 식을 유도할 수 있다. \begin{equation*}
\begin{aligned}
~~~ & ~~ z_{\alpha / 2} \frac{S}{\sqrt{n}} \le \delta \\
\Rightarrow & ~~ z_{\alpha / 2} \frac{S}{\delta} \le \sqrt{n} \\
\Rightarrow & ~~ \left(z_{\alpha / 2} \frac{S}{\delta}\right)^2 \le n
\end{aligned}
\end{equation*}
- 평균이 $\mu$인 모집단으로부터 얻은 확률표본이라고 하고 대표본인 경우에 신뢰도 $1 - \alpha$에서 오차한계를 $\delta$로 제한하는 표본의 크기는 다음 식을 이용하여 계산한다.
더보기
Examples
- 평균이 $\mu$인 모집단으로부터 크기가 10인 표본을 추출하여 계산된 표본분산이 $s^2 = 25$라고 할 때 모평균 $\mu$의 $90%$ 신뢰구간의 추정에서 오차한계 $\delta$를 1로 제한할 때 필요한 표본의 크기를 구하시오. 여기서 $z_{0.05} = 1.64$를 사용하시오. \begin{equation*}
\begin{aligned}
\left(z_{\alpha / 2} \frac{s}{\delta}\right)^2
& = \left(1.64 \cdot \frac{5}{1}\right)^2 \\
& = (8.2)^2 \\
& = 67.24
\end{aligned}
\end{equation*}
$$ \therefore ~~~ n \ge 67.24 $$
- 모비율 추정에 필요한 표본크기
- 모수가 $p$인 $B(1, p)$로부터 얻은 확률표본이라고 하고 대표본인 경우에 신뢰도 $1 - \alpha$에서 오차한계를 $\delta$로 제한하는 표본의 크기는 다음 식을 이용하여 계산한다.
$$ n \ge \hat p (1 - \hat p) \left(\frac{z_{\alpha / 2}}{\delta}\right)^2 $$ - 여기서 오차한계는 $z_{\alpha / 2} \sqrt{\frac{\hat p (1 - \hat p)}{n}}$이고 다음 과정을 통해 식을 유도할 수 있다. \begin{equation*}
\begin{aligned}
~~~ & ~~ z_{\alpha / 2} \sqrt{\frac{\hat p (1 - \hat p)}{n}} \le \delta \\
\Rightarrow & ~~ z_{\alpha / 2}^2 \frac{\hat p (1 - \hat p)}{n} \le \delta^2 \\
\Rightarrow & ~~ \hat p (1 - \hat p) \left(\frac{z_{\alpha / 2}}{\delta}\right)^2 \le n
\end{aligned}
\end{equation*}
- 모수가 $p$인 $B(1, p)$로부터 얻은 확률표본이라고 하고 대표본인 경우에 신뢰도 $1 - \alpha$에서 오차한계를 $\delta$로 제한하는 표본의 크기는 다음 식을 이용하여 계산한다.
더보기
Examples
- 어떤 후보의 지지율 $p$를 조사하기 위해 크기가 10인 표본을 추출하여 조사한 결과 8명이 지지함을 선택했을때 모비율 $p$의 $95%$ 신뢰구간의 추정에서 오차한계 $\delta$를 0.1로 제한할 때 필요한 표본의 크기를 구하시오. 여기서 $z_{0.025} = 1.9$를 사용하시오.
\begin{equation*}
\begin{aligned}
\hat p (1 - \hat p) \left(\frac{z_{\alpha / 2}}{\delta}\right)^2
& = (0.8)(0.2) \left(\frac{1.9}{0.1}\right)^2 \\
& = 57.76
\end{aligned}
\end{equation*}
$$ \therefore ~~~ n \ge 57.76 $$
'Lecture > Elementary Stat' 카테고리의 다른 글
11. 두 표본에 대한 가설의 검정 (Hypothesis tests for Two sample) (0) | 2023.02.14 |
---|---|
10. 단일 표본에 대한 가설의 검정 (Hypothesis tests for One sample) (0) | 2023.02.10 |
8. 구간추정 (Interval estimation) (0) | 2023.01.26 |
7. 점추정 (Point estimation) (0) | 2023.01.26 |
6. 표본의 분포 (Sampling distribution) (0) | 2023.01.17 |