- 연속형 분포 1 - 균일분포
- 확률변수 $X$가 구간 $[a, b]$ 상에 균일하게 분포되어 있고 다음의 확률밀도함수를 가지면 균일분포 (Uniform distribution)라고 한다. $$ f_X(x) = \bigg\{\begin{array}{lr}
\frac{1}{b - a}, & a \le x \le b \\
0, & \text{otherwise}
\end{array} $$ - '$X$는 구간 $[a, b]$ 상에서 균일분포를 따른다'고 하고 $X \sim U(a, b)$로 표기한다.
- 균일분포의 평균은 $E(X) = \frac{a + b}{2}$이고 분산은 $Var(X) = \frac{(b - a)^2}{12}$이다.
- 균일분포의 누적분포함수는 $F_X(X) = \frac{x - a}{b - a}, a \le x \le b$이다.
- 균일분포의 확률밀도함수 \begin{equation*}
\begin{aligned}
\int^b_{a} f_X(x) dx
& = \int^b_{a} \frac{1}{b - a} dx \\
& = \frac{1}{b - a} \int^b_{a} 1 ~ dx \\
& = \frac{1}{b - a} \left[ x \right]^b_a \\
& = \frac{1}{b - a} (b - a) \\
& = 1
\end{aligned}
\end{equation*} - 균일분포의 평균 \begin{equation*}
\begin{aligned}
E(X)
& = \int^b_{a} x \cdot f_X(x) dx \\
& = \int^b_{a} x \cdot \frac{1}{b - a} dx \\
& = \frac{1}{b - a} \int^b_{a} x dx \\
& = \frac{1}{b - a} \left[ \frac{1}{2}x^2 \right]^b_a \\
& = \frac{1}{b - a} \left(\frac{1}{2}b^2 - \frac{1}{2}a^2 \right) \\
& = \frac{1}{b - a} \frac{(b - a)(b + a)}{2} \\
& = \frac{a + b}{2}
\end{aligned}
\end{equation*} - 균일분포의 분산 \begin{equation*}
\begin{aligned}
Var(X)
& = E(X^2) - \{E(X)\}^2 \\
& = \int^b_{a} x^2 \cdot f_X(x) dx - \left(\frac{a + b}{2} \right)^2 \\
& = \frac{1}{b - a} \int^b_{a} x^2 dx - \left(\frac{a + b}{2} \right)^2 \\
& = \frac{1}{b - a} \left[ \frac{1}{3}x^3 \right]^b_a - \left(\frac{a + b}{2} \right)^2 \\
& = \frac{1}{b - a} \left(\frac{1}{3}b^3 - \frac{1}{3}a^3 \right) - \left(\frac{a + b}{2} \right)^2 \\
& = \frac{1}{b - a} \frac{(b - a)(b^2 + ba + a^2)}{3} - \left(\frac{a + b}{2} \right)^2 \\
& = \frac{(b - a)^2}{12}
\end{aligned}
\end{equation*}
- 확률변수 $X$가 구간 $[a, b]$ 상에 균일하게 분포되어 있고 다음의 확률밀도함수를 가지면 균일분포 (Uniform distribution)라고 한다. $$ f_X(x) = \bigg\{\begin{array}{lr}
더보기
Examples
어느 순간에 시계를 볼 때 그 시각의 분이 균일분포인 $X \sim U(0, 60)$을 따른다고 할 때
- $E(X)$와 $Var(X)$를 구하면 $$ E(X) = \frac{60}{2} = 30, ~~~ Var(X) = \frac{60^2}{12} = 300 $$
- 20분에서 40분 사이일 확률을 구하면 $$ P(20 \le X \le 40) = \int^{40}_{20} \frac{1}{60} dx = \frac{1}{3} $$
- (!) 30분일 확률을 구하면 $$ P(X = 30) = P(30 \le X \le 30) = \int^{30}_{30} \frac{1}{60} dx = 0 $$
- 연속형 분포 2 - 지수분포
- 확률변수 $X$가 다음의 확률밀도함수를 가지면 지수분포 (Exponential distribution)라고 한다. $$ f_X(x) = \bigg\{\begin{array}{lr}
\lambda e^{-\lambda x}, & x \ge 0 \\
0, & \text{otherwise}
\end{array} $$ - '$X$는 모수 $\lambda > 0$를 갖는 지수분포를 따른다'고 하고 $X \sim Exp(\lambda)$로 표기한다.
- 지수분포의 평균은 $E(X) = \frac{1}{\lambda}$이고 분산은 $Var(X) = \frac{1}{\lambda^2}$이다.
- 지수분포의 누적분포함수는 $F_X(X) = 1 - e^{-\lambda x}, x \ge 0 $이다.
- 지수분포의 확률밀도함수 \begin{equation*}
\begin{aligned}
\int^\infty_{0} f_X(x) dx
& = \int^\infty_{0} \lambda e^{-\lambda x} dx \\
& = \lambda \int^\infty_{0} e^{-\lambda x} dx \\
& = \lambda \left[ \frac{1}{-\lambda} e^{-\lambda x} \right]^\infty_{0} \\
& = \lambda \frac{1}{-\lambda} (0 - 1) \\
& = 1
\end{aligned}
\end{equation*} - 지수분포의 평균 \begin{equation*}
\begin{aligned}
E(X)
& = \int^\infty_{0} x \cdot f_X(x) dx \\
& = \int^\infty_{0} x \cdot \lambda e^{-\lambda x} dx \\
& = \lambda \int^\infty_{0} x \cdot e^{-\lambda x} dx \\
& = \lambda \left\{ \left[ \frac{1}{-\lambda} x \cdot e^{-\lambda x} \right]^\infty_{0} - \int^\infty_{0} \frac{1}{-\lambda} e^{-\lambda x} dx \right\} \\
& = \lambda \left\{ (0 - 0) + \frac{1}{\lambda} \int^\infty_{0} e^{-\lambda x} dx \right\} \\
& = \lambda \left( \frac{1}{\lambda} \cdot \frac{1}{\lambda} \right) \\
& = \frac{1}{\lambda}
\end{aligned}
\end{equation*} - 지수분포의 분산 \begin{equation*}
\begin{aligned}
Var(X)
& = E(X^2) - \{E(X)\}^2 \\
& = \int^\infty_{0} x^2 \cdot f_X(x) dx - \frac{1}{\lambda^2} \\
& = \int^\infty_{0} x^2 \cdot \lambda e^{-\lambda x} dx - \frac{1}{\lambda^2} \\
& = \lambda \int^\infty_{0} x^2 \cdot e^{-\lambda x} dx - \frac{1}{\lambda^2} \\
& = \lambda \left\{ \left[ \frac{1}{-\lambda} x^2 \cdot e^{-\lambda x} \right]^\infty_{0} - \int^\infty_{0} \frac{1}{-\lambda} 2x \cdot e^{-\lambda x} dx \right\} - \frac{1}{\lambda^2} \\
& = \lambda \left\{ (0 - 0) + \frac{2}{\lambda} \int^\infty_{0} x \cdot e^{-\lambda x} dx \right\} - \frac{1}{\lambda^2} \\
& = \lambda \left( \frac{2}{\lambda} \cdot \frac{1}{\lambda^2} \right) - \frac{1}{\lambda^2} \\
& = \frac{1}{\lambda^2}
\end{aligned}
\end{equation*}
- 확률변수 $X$가 다음의 확률밀도함수를 가지면 지수분포 (Exponential distribution)라고 한다. $$ f_X(x) = \bigg\{\begin{array}{lr}
더보기
Examples
어떤 식당에서 손님이 오는 시간 간격(단위 분)이 지수분포인 $X \sim Exp(0.2)$를 따른다고 할 때
- $E(X)$와 $Var(X)$를 구하면 $$ E(X) = \frac{1}{0.2} = 5\text{(분)}, ~~~ Var(X) = \frac{1}{(0.2)^2} = 25 $$
- 시간 간격이 10분 이상일 확률을 구하면 $$ P(X \ge 10) = 1 - F_X(10) = e^{-(0.2) 10} \approx 0.14 $$
- 연속형 분포 3 - 감마분포
- 확률변수 $X$가 다음의 확률밀도함수를 가지면 감마분포 (Gamma distribution)라고 하며 여기서 $\Gamma(\cdot)$는 감마 함수이다. $$ f_X(x) = \bigg\{\begin{array}{lr}
\frac{x^{\alpha - 1} e^{-x / \beta}}{\Gamma(\alpha) \beta^\alpha}, & x \ge 0 \\
0, & \text{otherwise}
\end{array} $$ - '$X$는 모수 $\alpha > 0, \beta > 0$를 갖는 감마분포를 따른다'고 하고 $X \sim \Gamma(\alpha, \beta)$ 또는 $Gamma(\alpha, \beta)$로 표기한다.
- 감마분포의 평균은 $E(X) = \alpha\beta$이고 분산은 $Var(X) = \alpha\beta^2$이다.
- $\alpha = 1$인 경우 지수분포, $\alpha = \nu / 2, \beta = 2$인 경우 자유도가 $\nu$인 카이제곱분포와 같다.
- 감마 함수
- 감마 함수 (Gamma function)는 다음과 같이 정의된다. $$ \Gamma(\alpha) = \int^\infty_0 t^{\alpha - 1} e^{-t} dt $$
- 감마 함수에는 다음과 같은 성질들이 있다.
- $\Gamma(\alpha + 1) = \alpha\Gamma(\alpha)$, 특히 $\alpha \in \mathbb{N}$이면 $\Gamma(\alpha + 1) = \alpha!$
- $\Gamma(\frac{1}{2}) = \sqrt{\pi}$
- 감마분포의 확률밀도함수에서 $\lambda = 1 / \beta$로 두면 다음의 식으로 다시 쓸 수 있으며 이때의 $\alpha$를 형태 (shape) 모수, $\beta = 1 / \lambda$를 척도 (scale) 모수라고 한다. $$ f_X(x) = \bigg\{\begin{array}{lr}
\frac{\lambda^\alpha x^{\alpha - 1} e^{-\lambda x}}{\Gamma(\alpha)}, & x \ge 0 \\
0, & \text{otherwise}
\end{array} $$
- 감마분포의 확률밀도함수 \begin{equation*}
\begin{aligned}
\int^\infty_{0} f_X(x) dx
& = \int^\infty_{0} \frac{x^{\alpha - 1} e^{-x / \beta}}{\Gamma(\alpha) \beta^\alpha} dx \\
& = \frac{1}{\Gamma(\alpha) \beta^\alpha} \int^\infty_{0} x^{\alpha - 1} e^{-x / \beta} dx \\
& = \frac{1}{\Gamma(\alpha) \beta^\alpha} \bigg\{ \bigg[ x^{\alpha - 1} (-\beta) e^{-x / \beta} \bigg]^\infty_{0} \\ & ~~~ - \int^\infty_{0} (\alpha - 1) x^{\alpha - 2} (-\beta) e^{-x / \beta} dx \bigg\} \\
& = \frac{1}{\Gamma(\alpha) \beta^\alpha} \bigg\{ 0 + (\alpha - 1)\beta \int^\infty_{0} x^{\alpha - 2} e^{-x / \beta} dx \bigg\} \\
& = \frac{(\alpha - 1)\beta}{(\alpha - 1)! \beta^\alpha} \int^\infty_{0} x^{\alpha - 2} e^{-x / \beta} dx \\
& \vdots \\
& = 1
\end{aligned}
\end{equation*} - 감마분포의 평균 \begin{equation*}
\begin{aligned}
E(X)
& = \int^\infty_{0} x \cdot f_X(x) dx \\
& = \int^\infty_{0} x \cdot \frac{x^{\alpha - 1} e^{-x / \beta}}{\Gamma(\alpha) \beta^\alpha} dx \\
& = \frac{1}{\Gamma(\alpha) \beta^\alpha} \int^\infty_{0} x^{\alpha} e^{-x / \beta} dx \\
& = \frac{\alpha\beta}{(\alpha - 1)! \beta^\alpha} \int^\infty_{0} x^{\alpha - 1} e^{-x / \beta} dx \\
& \vdots \\
& = \alpha\beta
\end{aligned}
\end{equation*} - 감마분포의 분산 \begin{equation*}
\begin{aligned}
Var(X)
& = E(X^2) - \{E(X)\}^2 \\
& = \int^\infty_{0} x^2 \cdot f_X(x) dx - (\alpha\beta)^2 \\
& = \int^\infty_{0} x^2 \cdot \frac{x^{\alpha - 1} e^{-x / \beta}}{\Gamma(\alpha) \beta^\alpha} dx - (\alpha\beta)^2 \\
& = \int^\infty_{0} \frac{x^{\alpha + 1} e^{-x / \beta}}{\Gamma(\alpha) \beta^\alpha} dx - (\alpha\beta)^2 \\
& = \frac{(\alpha + 1)\beta}{(\alpha - 1)! \beta^\alpha} \int^\infty_{0} x^{\alpha} e^{-x / \beta} dx - (\alpha\beta)^2 \\
& \vdots \\
& = (\alpha + 1)\alpha\beta^2 - (\alpha\beta)^2 \\
& = \alpha\beta^2
\end{aligned}
\end{equation*}
- 확률변수 $X$가 다음의 확률밀도함수를 가지면 감마분포 (Gamma distribution)라고 하며 여기서 $\Gamma(\cdot)$는 감마 함수이다. $$ f_X(x) = \bigg\{\begin{array}{lr}
더보기
Examples
어떤 식당에서 손님이 평균적으로 10분에 1명씩 온다고 할 때
- 6번째 손님이 오는 시간의 평균과 분산은 $$ E(X) = 6 \cdot 10 = 60, ~~~ Var(X) = 6 \cdot 10^2 = 600 $$
- 3번째 손님이 오는 시간이 30분 이내일 확률은 $$ P(X \le 30) = \int^{30}_0 \frac{x^{3 - 1} e^{-x / 10}}{\Gamma(3) 10^3} dx \approx 0.58 $$
- 연속형 분포 4 - 베타분포
- 확률변수 $X$가 다음의 확률밀도함수를 가지면 베타분포 (Beta distribution)라고 하며 여기서 $B(\cdot)$는 베타 함수이다. $$ f_X(x) = \bigg\{\begin{array}{lr}
\frac{1}{B(\alpha, \beta)}x^{\alpha - 1}(1 - x)^{\beta - 1}, & 0 \le x \le 1 \\
0, & \text{otherwise}
\end{array} $$ - '$X$는 모수 $\alpha > 0, \beta > 0$를 갖는 베타분포를 따른다'고 하고 $X \sim Beta(\alpha, \beta)$로 표기한다.
- 감마분포의 평균은 $E(X) = \frac{\alpha}{\alpha + \beta}$이고 분산은 $Var(X) = \frac{\alpha\beta}{(\alpha + \beta)^2(\alpha + \beta + 1)}$이다.
- $\alpha = 1, \beta = 1$인 경우 균일분포 $U(0, 1)$와 같다.
- 베타 함수
- 베타 함수 (Beta function)는 다음과 같이 정의된다. $$ B(\alpha, \beta) = \int^1_0 t^{\alpha - 1}(1 - t)^{\beta - 1} dt, ~~~ \alpha > 0, \beta > 0 $$
- 베타 함수에는 다음과 같은 성질들이 있다.
- $B(\alpha, \beta) = B(\beta, \alpha)$
- $B(\alpha, \beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha + \beta)}$, 여기서 $\Gamma(\cdot)$는 감마 함수.
- 베타 함수의 성질 \begin{equation*}
\begin{aligned}
\Gamma(\alpha)\Gamma(\beta)
& = \int^\infty_0 u^{\alpha - 1} e^{-u} du \int^\infty_0 v^{\beta - 1} e^{-v} dv \\
& = \int^\infty_0 \int^\infty_0 u^{\alpha - 1} v^{\beta - 1} e^{-(u + v)} dudv ~~~~~ (\downarrow \text{ let } u = xy, v = x(1 - y) ~)\\
& = \int^1_0 \int^\infty_0 (xy)^{\alpha - 1} \{x(1 - y)\}^{\beta - 1} e^{-\{xy + x(1 - y)\}} \bigg| \frac{\partial (u, v)}{\partial (x, y)} \bigg| dxdy \\
& = \int^1_0 \int^\infty_0 x^{\alpha + \beta - 2} y^{\alpha - 1} (1 - y)^{\beta - 1} e^{-x} \bigg| \begin{bmatrix}
y & x \\[1ex]
1 - y & -x \\
\end{bmatrix} \bigg| dxdy \\
& = \int^1_0 \int^\infty_0 x^{\alpha + \beta - 2} y^{\alpha - 1} (1 - y)^{\beta - 1} e^{-x} | -x | dxdy \\
& = \int^\infty_0 x^{\alpha + \beta - 1} e^{-x} dx \int^1_0 y^{\alpha - 1} (1 - y)^{\beta - 1} dy \\
& = \Gamma(\alpha + \beta) B(\alpha, \beta)
\end{aligned}
\end{equation*}
- 베타분포의 확률밀도함수에서 $B(\alpha, \beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha + \beta)}$로 두면 다음의 식으로 다시 쓸 수 있다. $$ f_X(x) = \bigg\{\begin{array}{lr}
\frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)} x^{\alpha - 1}(1 - x)^{\beta - 1}, & 0 \le x \le 1 \\
0, & \text{otherwise}
\end{array} $$ - 베타분포의 확률밀도함수 \begin{equation*}
\begin{aligned}
\int^1_0 f_X(x) dx
& = \int^1_0 \frac{1}{B(\alpha, \beta)}x^{\alpha - 1}(1 - x)^{\beta - 1} dx \\
& = \frac{1}{B(\alpha, \beta)} \int^1_0 x^{\alpha - 1}(1 - x)^{\beta - 1} dx \\
& = \frac{1}{B(\alpha, \beta)} B(\alpha, \beta) \\
& = 1
\end{aligned}
\end{equation*} - 베타분포의 평균 \begin{equation*}
\begin{aligned}
E(X)
& = \int^1_{0} x \cdot f_X(x) dx \\
& = \int^1_{0} x \cdot \frac{1}{B(\alpha, \beta)}x^{\alpha - 1}(1 - x)^{\beta - 1} dx \\
& = \frac{1}{B(\alpha, \beta)} \int^1_{0} x^{\alpha}(1 - x)^{\beta - 1} dx \\
& = \frac{1}{B(\alpha, \beta)} B(\alpha + 1, \beta)\\
& = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)} \frac{\Gamma(\alpha + 1)\Gamma(\beta)}{\Gamma(\alpha + \beta + 1)} \\
& = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)} \frac{\alpha \Gamma(\alpha)\Gamma(\beta)}{(\alpha + \beta)\Gamma(\alpha + \beta)} \\
& = \frac{\alpha}{\alpha + \beta}
\end{aligned}
\end{equation*} - 베타분포의 분산 \begin{equation*}
\begin{aligned}
Var(X)
& = E(X^2) - \{E(X)\}^2 \\
& = \int^1_{0} x^2 \cdot f_X(x) dx - \left(\frac{\alpha}{\alpha + \beta}\right)^2 \\
& = \int^1_{0} x^2 \cdot \frac{1}{B(\alpha, \beta)}x^{\alpha - 1}(1 - x)^{\beta - 1} dx - \left(\frac{\alpha}{\alpha + \beta}\right)^2 \\
& = \frac{1}{B(\alpha, \beta)} \int^1_{0} x^{\alpha + 1}(1 - x)^{\beta - 1} dx - \left(\frac{\alpha}{\alpha + \beta}\right)^2 \\
& = \frac{1}{B(\alpha, \beta)} B(\alpha + 2, \beta) - \left(\frac{\alpha}{\alpha + \beta}\right)^2 \\
& = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)} \frac{\alpha(\alpha + 1) \Gamma(\alpha)\Gamma(\beta)}{(\alpha + \beta)(\alpha + \beta + 1)\Gamma(\alpha + \beta)} - \left(\frac{\alpha}{\alpha + \beta}\right)^2 \\
& = \frac{\alpha(\alpha + 1)}{(\alpha + \beta)(\alpha + \beta + 1)} - \left(\frac{\alpha}{\alpha + \beta}\right)^2 \\
& = \frac{\alpha\beta}{(\alpha + \beta)^2(\alpha + \beta + 1)}
\end{aligned}
\end{equation*}
- 확률변수 $X$가 다음의 확률밀도함수를 가지면 베타분포 (Beta distribution)라고 하며 여기서 $B(\cdot)$는 베타 함수이다. $$ f_X(x) = \bigg\{\begin{array}{lr}
더보기
Examples
어떤 식당에서 손님이 7명은 재방문 의사가 있고 3명은 재방문 의사가 없다고 했을 때
- 새로운 손님의 재방문 의사 확률의 평균과 분산은 $$ E(X) = \frac{7}{7 + 3} = 0.7, ~~~ Var(X) = \frac{7 \cdot 3}{(7 + 3)^2(7 + 3 + 1)} \approx 0.02 $$
- 새로운 손님의 재방문 의사 확률이 0.8 이상일 확률은 $$ P(X \ge 0.8) = \int^1_{0.8} \frac{1}{B(7, 3)}x^{7 - 1}(1 - x)^{3 - 1} dx \approx 0.26 $$
- 연속형 분포 5 - 정규분포
- 확률변수 $X$가 다음의 확률밀도함수를 가지면 정규분포 (Normal distribution) 또는 가우시안분포 (Gaussian distribution) 라고 한다. $$ f_X(x) = \frac{1}{\sigma \sqrt{2\pi}} \exp \left[ -\frac{(x - \mu)^2}{2\sigma^2} \right], -\infty < x < \infty $$
- '$X$는 모수 $\mu > 0, \sigma > 0$를 갖는 정규분포를 따른다'고 하고 $X \sim N(\mu, \sigma^2)$로 표기한다.
- 정규분포의 평균은 $E(X) = \mu$이고 분산은 $Var(X) = \sigma^2$이다.
- 정규분포의 확률밀도함수 \begin{equation*}
\begin{aligned}
\int^\infty_{-\infty} f_X(x) dx
& = \int^\infty_{-\infty} \frac{1}{\sigma \sqrt{2\pi}} \exp \left[ -\frac{(x - \mu)^2}{2\sigma^2} \right] dx \\
& = \frac{1}{\sigma \sqrt{2\pi}} \int^\infty_{-\infty} \exp \left[ -\frac{(x - \mu)^2}{2\sigma^2} \right] dx \\
& = \frac{1}{\sigma \sqrt{2\pi}} 2 \int^\infty_\mu \exp \left[ -\frac{(x - \mu)^2}{2\sigma^2} \right] dx \\
& = \frac{\sqrt{2}}{\sigma \sqrt{\pi}} \sqrt{\left(\int^\infty_\mu \exp \left[ -\frac{(x - \mu)^2}{2\sigma^2} \right] dx \right)^2} \\
& = \frac{\sqrt{2}}{\sigma \sqrt{\pi}} \sqrt{\left(\int^\infty_\mu \exp \left[ -\frac{(x - \mu)^2}{2\sigma^2} \right] dx \right) \left(\int^\infty_\mu \exp \left[ -\frac{(y - \mu)^2}{2\sigma^2} \right] dy \right)} \\
& = \frac{\sqrt{2}}{\sigma \sqrt{\pi}} \sqrt{\int^\infty_\mu \int^\infty_\mu \exp \left[ - \left\{\frac{(x - \mu)^2}{2\sigma^2} + \frac{(y - \mu)^2}{2\sigma^2} \right\} \right] dxdy} \\
& \text{let } \frac{x - \mu}{\sigma} = r\cos\theta, \frac{y - \mu}{\sigma} = r\sin\theta, \text{i.e., polar coordinate system} \\
& = \frac{\sqrt{2}}{\sigma \sqrt{\pi}} \sqrt{\int^\frac{\pi}{2}_0 \int^\infty_0 \exp \left[ -\frac{1}{2} \left\{(r\cos\theta)^2 + (r\sin\theta)^2 \right\} \right] \bigg| \frac{\partial (x, y)}{\partial (r, \theta)} \bigg| drd\theta} \\
& = \frac{\sqrt{2}}{\sigma \sqrt{\pi}} \sqrt{\int^\frac{\pi}{2}_0 \int^\infty_0 \exp \left(-\frac{r^2}{2} \right) \bigg| \begin{bmatrix}
\sigma\cos\theta & -\sigma r\sin\theta \\[1ex]
\sigma\sin\theta & \sigma r\cos\theta \\
\end{bmatrix} \bigg| drd\theta} \\
& = \frac{\sqrt{2}}{\sigma \sqrt{\pi}} \sqrt{\int^\frac{\pi}{2}_0 \int^\infty_0 \exp \left(-\frac{r^2}{2}\right) | \sigma^2 r | drd\theta} \\
& = \sqrt{\frac{2}{\pi}} \sqrt{\int^\frac{\pi}{2}_0 \int^\infty_0 r \exp \left(-\frac{r^2}{2} \right) drd\theta} \\
& = \sqrt{\frac{2}{\pi}} \sqrt{\int^\frac{\pi}{2}_0 \int^\infty_0 r \exp \left(-\frac{r^2}{2} \right) drd\theta} \\
& = \sqrt{\frac{2}{\pi}} \sqrt{\int^\frac{\pi}{2}_0 \left[\frac{1}{-1} \exp(-\frac{r^2}{2}) \right]^\infty_0 d\theta} \\
& = \sqrt{\frac{2}{\pi}} \sqrt{\int^\frac{\pi}{2}_0 1 d\theta} \\
& = \sqrt{\frac{2}{\pi}} \sqrt{\left[\theta \right]^\frac{\pi}{2}_0 } \\
& = \sqrt{\frac{2}{\pi}} \sqrt{\frac{\pi}{2}} \\
& = 1
\end{aligned}
\end{equation*} - 정규분포의 평균 \begin{equation*}
\begin{aligned}
E(X)
& = \int^\infty_{-\infty} x \cdot f_X(x) dx \\
& = \int^\infty_{-\infty} x \cdot \frac{1}{\sigma \sqrt{2\pi}} \exp \left[ -\frac{(x - \mu)^2}{2\sigma^2} \right] dx \\
& = \frac{1}{\sigma \sqrt{2\pi}} \int^\infty_{-\infty} x \exp \left[ -\frac{(x - \mu)^2}{2\sigma^2} \right] dx \\
& = \frac{1}{\sigma \sqrt{2\pi}} \int^\infty_{-\infty} (\sigma t + \mu) \exp \left( -\frac{t^2}{2} \right) \sigma dt ~~~ (\text{let } \frac{x - \mu}{\sigma} = t) \\
& = \frac{1}{\sqrt{2\pi}} \left\{\int^\infty_{-\infty} \sigma t \exp \left( -\frac{t^2}{2} \right) dt + \int^\infty_{-\infty} \mu \exp \left( -\frac{t^2}{2} \right) dt \right\} \\
& = \frac{1}{\sqrt{2\pi}} \left\{0 + \mu \int^\infty_{-\infty} \exp \left( -\frac{t^2}{2} \right) dt \right\} \\
& = \frac{\mu}{\sqrt{2\pi}} \sqrt{2\pi} \\
& = \mu
\end{aligned}
\end{equation*} - 정규분포의 분산 \begin{equation*}
\begin{aligned}
Var(X)
& = E(X^2) - \{E(X)\}^2 \\
& = \int^\infty_{-\infty} x^2 \cdot f_X(x) dx - \mu^2 \\
& = \int^\infty_{-\infty} x^2 \cdot \frac{1}{\sigma \sqrt{2\pi}} \exp \left[ -\frac{(x - \mu)^2}{2\sigma^2} \right] dx - \mu^2 \\
& = \frac{1}{\sigma \sqrt{2\pi}} \int^\infty_{-\infty} x^2 \cdot \exp \left[ -\frac{(x - \mu)^2}{2\sigma^2} \right] dx - \mu^2 \\
& = \frac{1}{\sigma \sqrt{2\pi}} \int^\infty_{-\infty} (\sigma t + \mu)^2 \exp \left( -\frac{t^2}{2} \right) \sigma dt - \mu^2 ~~~ (\text{let } \frac{x - \mu}{\sigma} = t) \\
& = \frac{1}{\sqrt{2\pi}} \bigg\{\int^\infty_{-\infty} (\sigma t)^2 \exp \left( -\frac{t^2}{2} \right) dt + \int^\infty_{-\infty} 2\sigma\mu t \exp \left( -\frac{t^2}{2} \right) dt + \int^\infty_{-\infty} \mu^2 \exp \left( -\frac{t^2}{2} \right) dt \bigg\} - \mu^2 \\
& = \frac{1}{\sqrt{2\pi}} \bigg\{\sigma^2 \int^\infty_{-\infty} t^2 \exp \left( -\frac{t^2}{2} \right) dt + 0 + \mu^2 \int^\infty_{-\infty} \exp \left( -\frac{t^2}{2} \right) dt \bigg\} - \mu^2 \\
& = \frac{1}{\sqrt{2\pi}} \bigg\{\sigma^2 \int^\infty_{-\infty} 2u \exp \left(-u\right) \frac{1}{\sqrt{2u}} du + \mu^2 \cdot \sqrt{2\pi} \bigg\} - \mu^2 ~~~ (\text{let } \frac{t^2}{2} = u) \\
& = \frac{\sigma^2}{\sqrt{\pi}} \int^\infty_{-\infty} \sqrt{u} \exp \left(-u\right) du + \mu^2 - \mu^2 \\
& = \frac{2\sigma^2}{\sqrt{\pi}} \int^\infty_0 u^\frac{1}{2} e^{-u} du \\
& = \frac{2\sigma^2}{\sqrt{\pi}} \Gamma(\frac{3}{2}) \\
& = \frac{2\sigma^2}{\sqrt{\pi}} \frac{1}{2}\Gamma(\frac{1}{2}) \\
& = \frac{\sigma^2}{\sqrt{\pi}} \sqrt{\pi} \\
& = \sigma^2
\end{aligned}
\end{equation*}
더보기
Examples
어떤 식당의 매출이 정규분포인 $X \sim N(300, 10^2)$를 따른다고 할 때
- 매출의 평균과 분산은 $$ E(X) = 300, ~~~ Var(X) = 10^2 = 100 $$
- 매출이 320 이상일 확률은 $$ P(X \ge 320) = \int^\infty_{320} \frac{1}{10 \sqrt{2\pi}} \exp \left[ -\frac{(x - 300)^2}{2 \cdot 10^2} \right] dx \approx 0.02 $$
- 정규분포의 결합
- 정규 분포의 중요한 두 가지 성질
- 선형 결합 (Linear combination) : 만약 $X \sim N(\mu, \sigma^2)$이고 $a, b$가 상수이면 $$ aX + b \sim N(a \mu + b, a^2 \sigma^2) $$
- 가법성 (Additivity) : 만약 $X_1 \sim N(\mu_1, \sigma_1^2)$와 $X_2 \sim N(\mu_2, \sigma_2^2)$가 서로 독립이면 $$ X_1 + X_2 \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2) $$
- 정규 분포의 중요한 두 가지 성질
- 표준정규분포
- 확률변수 $Z$가 다음의 확률밀도함수를 가지면 표준정규분포 (Standard normal distribution) 라고 한다. $$ f_Z(z) = \phi(z) = \frac{1}{\sqrt{2\pi}} \exp \left[ -\frac{z^2}{2} \right], -\infty < z < \infty $$
- '$Z$는 표준정규분포를 따른다'고 하고 $Z \sim N(0, 1)$로 표기한다.
- 표준정규분포의 평균은 $E(Z) = 0$이고 분산은 $Var(Z) = 1$이다.
- 표준정규분포의 누적분포함수는 다음과 같다. $$ F_Z(z) = P(Z \le z) = \Phi(z) = \int^z_{-\infty} \phi(t) dt $$
- 표준화
- 확률변수 $X$가 정규분포 $X \sim N(\mu, \sigma^2)$를 따를 때 다음의 변환을 통해 $X$가 표준정규분포를 따르도록 할 수 있으며 이런 변환을 표준화라고 한다. $$ Z = \frac{X - \mu}{\sigma} \sim N(0, 1) $$
- 어떤 정규분포라도 표준화를 통해 표준정규분포로 바꾸어 쉽게 비교할 수 있다.
더보기
Examples
어떤 식당의 매출이 정규분포인 $X \sim N(300, 10^2)$를 따른다고 할 때
- 매출의 평균과 분산은 $$ E(X) = 300, ~~~ Var(X) = 10^2 = 100 $$
- 매출이 320 이상일 확률은 $$ P(X \ge 320) = P(Z \ge 2) = \int^\infty_{2} \frac{1}{\sqrt{2\pi}} \exp \left[ -\frac{z^2}{2} \right] dz \approx 0.02 $$
- 이항분포의 정규분포 근사
- 확률변수 $X$가 이항분포 $X \sim B(n, p)$를 따르고 $n$이 충분히 클 때 이항분포는 정규분포로 근사될 수 있다. $$ X \sim B(n, p) \Rightarrow X \sim N(np, np(1 - p)) $$
- 이항분포는 이산형 분포이므로 연속형 분포로 근사시킬 때 확률값 간의 오차가 생긴다. 이때 그 확률의 정의역을 조금 수정한다면 오차가 줄어든다. 이런 수정을 연속성 수정 (continuity correction)이라고 하며 일반적으로 다음과 같다. $$ P(X = x) \Rightarrow P(x - \frac{1}{2} < X < x + \frac{1}{2}) $$ $$ P(a \le X \le b) \Rightarrow P(a - \frac{1}{2} \le X \le b + \frac{1}{2}) $$
더보기
Examples
$X_1 \sim B(14, 0.5)$의 근사 정규분포는 $X_2 \sim N(7, 3.5)$이다.
- $P(5 \le X_1 \le 9) = \sum_{x = 5}^9 \binom{14}{x} (0.5)^x (0.5)^{14 - x} \approx 0.82$
- $P(5 \le X_2 \le 9) = \int_5^9 \frac{1}{\sqrt{3.5} \sqrt{2\pi}} \exp \left[ -\frac{(x - 7)^2}{2(3.5)} \right] \approx 0.71$
- $P(5 - 0.5 \le X_2 \le 9 + 0.5) = \int_{4.5}^{9.5} \frac{1}{\sqrt{3.5} \sqrt{2\pi}} \exp \left[ -\frac{(x - 7)^2}{2(3.5)} \right] \approx 0.82$
- 중심극한정리
- 어떤 분포인가와 무관하게 동일한 분포를 갖고 서로 독립인 확률변수들의 평균분포는 표분의 수가 충분히 크면 정규분포에 가까워진다. 이를 중심극한정리 (Central limit theorem)이라고 한다.
- 확률변수들 $X_1, X_2, \cdots, X_n$이 서로 독립이고 $E(X_k) = \mu, Var(X_k) = \sigma^2$일 때 $Y = \sum^n_{k = 1} X_k$에 대해 다음 식이 성립한다. $$ \text{As } n \rightarrow \infty, ~~~ \frac{Y - n\mu}{\sigma\sqrt{n}} \xrightarrow{d} N(0, 1) $$
- 연속형 분포 6 - 카이제곱분포
- 확률변수 $X$가 다음의 확률밀도함수를 가지면 카이제곱분포 (Chi-squared distribution)라고 하며 여기서 $\Gamma(\cdot)$는 감마 함수이다. $$ f_X(x) = \bigg\{\begin{array}{lr}
\frac{x^{\nu / 2 - 1} e^{-x / 2}}{\Gamma(\nu / 2) 2^{\nu / 2}}, & x \ge 0 \\
0, & \text{otherwise}
\end{array} $$ - '$X$는 자유도 (degree of freedom, df)가 $\nu > 0$인 $\chi^2$-분포를 따른다'고 하고 $X \sim \chi^2(\nu)$로 표기한다.
- $\chi^2$-분포의 평균은 $E(X) = \nu$이고 분산은 $Var(X) = 2\nu$이다.
- 카이제곱분포의 확률밀도함수 \begin{equation*}
\begin{aligned}
\int^\infty_{0} f_X(x) dx
& = \int^\infty_{0} \frac{x^{\nu / 2 - 1} e^{-x / 2}}{\Gamma(\nu / 2) 2^{\nu / 2}} dx \\
& = \frac{1}{\Gamma(\nu / 2) 2^{\nu / 2}} \int^\infty_{0} x^{\nu / 2 - 1} e^{-x / 2} dx \\
& = \frac{1}{\Gamma(\nu / 2) 2^{\nu / 2}} \bigg\{ \bigg[ x^{\nu / 2 - 1} (-2) e^{-x / 2} \bigg]^\infty_{0} - \int^\infty_{0} (\nu / 2 - 1) x^{\nu / 2 - 2} (-2) e^{-x / 2} dx \bigg\} \\
& = \frac{1}{\Gamma(\nu / 2) 2^{\nu / 2}} \bigg\{ 0 + (\nu / 2 - 1)2 \int^\infty_{0} x^{\nu / 2 - 2} e^{-x / 2} dx \bigg\} \\
& = \frac{(\nu / 2 - 1)2}{(\nu / 2 - 1)! 2^{\nu / 2}} \int^\infty_{0} x^{\nu / 2 - 2} e^{-x / 2} dx \\
& \vdots \\
& = 1
\end{aligned}
\end{equation*} - 카이제곱분포의 평균 \begin{equation*}
\begin{aligned}
E(X)
& = \int^\infty_{0} x \cdot f_X(x) dx \\
& = \int^\infty_{0} x \cdot \frac{x^{\nu / 2 - 1} e^{-x / 2}}{\Gamma(\nu / 2) 2^{\nu / 2}} dx \\
& = \frac{1}{\Gamma(\nu / 2) 2^{\nu / 2}} \int^\infty_{0} x^{\nu / 2} e^{-x / 2} dx \\
& = \frac{\nu / 2 \cdot 2}{(\nu / 2 - 1)! 2^{\nu / 2}} \int^\infty_{0} x^{\nu / 2 - 1} e^{-x / 2} dx \\
& \vdots \\
& = \nu / 2 \cdot 2 \\
& = \nu
\end{aligned}
\end{equation*} - 카이제곱분포의 분산 \begin{equation*}
\begin{aligned}
Var(X)
& = E(X^2) - \{E(X)\}^2 \\
& = \int^\infty_{0} x^2 \cdot f_X(x) dx - \nu^2 \\
& = \int^\infty_{0} x^2 \cdot \frac{x^{\nu / 2 - 1} e^{-x / 2}}{\Gamma(\nu / 2) 2^{\nu / 2}} dx - \nu^2 \\
& = \int^\infty_{0} \frac{x^{\nu / 2 + 1} e^{-x / 2}}{\Gamma(\nu / 2) 2^{\nu / 2}} dx - \nu^2 \\
& = \frac{(\nu / 2 + 1)2}{(\nu / 2 - 1)! 2^{\nu / 2}} \int^\infty_{0} x^{\nu / 2} e^{-x / 2} dx - \nu^2 \\
& \vdots \\
& = (\nu / 2 + 1)(\nu / 2)2^2 - \nu^2 \\
& = (\nu + 2)\nu - \nu^2 \\
& = 2\nu
\end{aligned}
\end{equation*} - 카이제곱분포의 특성
- 확률변수 $Z$가 표준정규분포를 따를 때, $Z$의 제곱은 자유도가 1인 카이제곱분포를 따른다. 즉, $$ Z^2 \sim \chi^2(1) $$
- 카이제곱분포는 서로 독립인 카이제곱분포에 대하여 가법성을 가진다. 즉, $$ Z_1^1 + Z_2^2 + \cdots + Z_k^2 \sim \chi^2(k) $$
- 확률변수 $X$가 다음의 확률밀도함수를 가지면 카이제곱분포 (Chi-squared distribution)라고 하며 여기서 $\Gamma(\cdot)$는 감마 함수이다. $$ f_X(x) = \bigg\{\begin{array}{lr}
- 연속형 분포 7 - t-분포
- 확률변수 $X$가 다음의 확률밀도함수를 가지면 t-분포 (t-distribution) 또는 스튜던트 t-분포 (Student t-distribution)이라고 하며 여기서 $\Gamma(\cdot)$는 감마 함수이다. $$ f_X(x) = \bigg\{\begin{array}{lr}
\frac{\Gamma[(\nu + 1) / 2]}{\Gamma(\nu / 2) \sqrt{\pi\nu}}\left(1 + \frac{x^2}{\nu}\right)^{\frac{\nu + 1}{2}}, & -\infty < x < \infty \\
0, & \text{otherwise}
\end{array} $$ - '$X$는 자유도가 $\nu > 0$인 t-분포를 따른다'고 하고 $X \sim t(\nu)$로 표기한다.
- t-분포의 평균은 $E(X) = \bigg\{\begin{array}{lr}
0, & \nu > 1 \\
\text{undefined}, & \text{otherwise}
\end{array} $이고 분산은 $Var(X) = \bigg\{\begin{array}{lr}
\frac{\nu}{\nu - 2}, & 2 < \nu \\
\infty, & 1 < \nu \le 2 \\
\text{undefined}, & \text{otherwise}
\end{array} $이다.
- 확률변수 $X$가 다음의 확률밀도함수를 가지면 t-분포 (t-distribution) 또는 스튜던트 t-분포 (Student t-distribution)이라고 하며 여기서 $\Gamma(\cdot)$는 감마 함수이다. $$ f_X(x) = \bigg\{\begin{array}{lr}
- 연속형 분포 8 - F-분포
- 확률변수 $X$가 다음의 확률밀도함수를 가지면 F-분포 (F-distribution)라고 하며 여기서 $B(\cdot, ~ \cdot)$는 베타 함수이다. $$ f_X(x) = \bigg\{\begin{array}{lr}
\frac{x^{-1}}{B(\nu_1 / 2, \nu_2 / 2)} \left(\frac{\nu_1 x}{\nu_1 x + \nu_2}\right)^{\nu_1 / 2} \left(1 - \frac{\nu_1 x}{\nu_1 x + \nu_2}\right)^{\nu_2 / 2} , & x \ge 0 \\
0, & \text{otherwise}
\end{array} $$ - '$X$는 자유도가 $\nu_1 > 0, \nu_2 > 0$인 F-분포를 따른다'고 하고 $X \sim F(\nu_1, \nu_2)$로 표기한다.
- F-분포의 평균은 $E(X) = \frac{\nu_2}{\nu_2 - 2}$이고 분산은 $Var(X) = \frac{2 \nu_2^2 (\nu_2 + \nu_1 - 2)}{\nu_1 (\nu_2 - 2)^2 (\nu_2 - 4)}$이다.
- 확률변수 $X$가 다음의 확률밀도함수를 가지면 F-분포 (F-distribution)라고 하며 여기서 $B(\cdot, ~ \cdot)$는 베타 함수이다. $$ f_X(x) = \bigg\{\begin{array}{lr}
- t-분포와 F-분포
- $Z$가 표준정규분포, $\chi^2_\nu$는 자유도가 $\nu$인 카이제곱분포로 주어질 때 t-분포는 $\frac{Z}{\sqrt{\chi^2_\nu / \nu}}$의 분포로 정의된다.
- $\chi^2_{\nu_1}$는 자유도가 $\nu_1$인 카이제곱분포, $\chi^2_{\nu_2}$는 자유도가 $\nu_2$인 카이제곱분포로 주어질 때 F-분포는 $\frac{\chi^2_{\nu_1} / \nu_1}{\chi^2_{\nu_2} / \nu_2}$의 분포로 정의된다.
- 적률과 적률생성함수
- 자연수 $k, (k = 1, 2, \cdots)$에 대해 기댓값 $E(X^k)$가 존재한다면 이 $E(X^k)$를 확률변수 $X$의 원점에 대한 제$k$차 적률 (moment)이라고 한다.
- $X$의 기댓값을 $\mu$라고 하고 기댓값 $E[(X - \mu)^k]$가 존재한다면 이 $E[(X - \mu)^k]$를 확률변수 $X$의 제$k$차 중심적률 (central moment)이라고 한다.
- 임의의 실수 $t \in (-\delta, \delta), \delta > 0$에 대해 기댓값 $E(e^{tX})$가 존재한다면 이 $E(e^{tX})$를 확률변수 $X$의 적률생성함수 (moment generating function, mgf)라고 하며 $M_X(t) \equiv E(e^{tX})$로 나타낸다.
- 적률생성함수 \begin{equation*}
\begin{aligned}
M_X(t)
& \equiv E(e^{tX}) \\
& = E\left(\displaystyle\sum^\infty_{n = 0} \frac{(tX)^n}{n!}\right) \\
& = E\left(1 + tX + \frac{(tX)^2}{2!} + \cdots \right) \\
& = 1 + tE(X) + \frac{t^2}{2!}E(X^2) + \cdots \\
\end{aligned}
\end{equation*}- $M^{(k)}_X(0) = E(X^k)$
- $M_{aX}(t) = M_X(at),$ where $a \in \mathbb{N}$
- $M_{X+b}(t) = e^{bt}M_X(t),$ where $b$ is constant
- 두 확률변수 $X$, $Y$가 독립이면 $M_{X + Y}(t) = M_X(t) M_Y(t)$
- 두 확률변수의 적률생성함수가 동일하면 두 확률변수는 같은 분포를 따른다.
- 적률생성함수의 성질
- $M_{aX+b}(t) = e^{bt}M_X(at)$ \begin{equation*}
\begin{aligned}
M_{aX + b}(t)
& \equiv E(e^{t(aX + b)}) \\
& = E(e^{atX} e^{bt}) \\
& = e^{bt} E(e^{atX}) \\
& = e^{bt} M_X(at) \\
\end{aligned}
\end{equation*} - 두 확률변수 $X$, $Y$가 독립이면 $M_{X + Y}(t) = M_X(t) M_Y(t)$ \begin{equation*}
\begin{aligned}
M_{X + Y}(t)
& \equiv E(e^{t(X + Y)}) \\
& = E(e^{tX} e^{tY}) \\
& = E(e^{tX}) E(e^{tY})\\
& = M_X(t) M_Y(t) \\
\end{aligned}
\end{equation*}
- $M_{aX+b}(t) = e^{bt}M_X(at)$ \begin{equation*}
- 표준정규분포의 적률생성함수 \begin{equation*}
\begin{aligned}
M_Z(t)
& \equiv E(e^{tZ}) \\
& = \int_{-\infty}^\infty e^{tz} \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} dz \\
& = \int_{-\infty}^\infty \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2 - 2tz}{2}} dz \\
& = \int_{-\infty}^\infty \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2 - 2tz + t^2 - t^2}{2}} dz \\
& = e^{\frac{t^2}{2}} \int_{-\infty}^\infty \frac{1}{\sqrt{2\pi}} e^{-\frac{(z - t)^2}{2}} dz \\
& = e^{\frac{t^2}{2}} \\
\end{aligned}
\end{equation*}
- 정규분포의 적률생성함수 \begin{equation*}
\begin{aligned}
M_X(t)
& = e^{\mu t} e^{\frac{\sigma^2t^2}{2}} ~~~ (\because X = \sigma Z + \mu) \\
& = e^{\mu t + \frac{\sigma^2t^2}{2}} \\
\end{aligned}
\end{equation*}- $M^{(1)}_X(0) = E(X) = \mu$ \begin{equation*}
\begin{aligned}
M^{(1)}_X(t)
& = \frac{d}{d t} M_X(t) \\
& = \frac{d}{d t} e^{\mu t + \frac{\sigma^2t^2}{2}} \\
& = (\mu + t\sigma^2) \cdot e^{\mu t + \frac{\sigma^2t^2}{2}} \\
\end{aligned}
\end{equation*} - $M^{(2)}_X(0) = E(X^2) = \sigma^2 + \mu^2$ \begin{equation*}
\begin{aligned}
M^{(2)}_X(t)
& = \frac{d}{d t} M^{(1)}_X(t) \\
& = \frac{d}{d t} (\mu + t\sigma^2) e^{\mu t + \frac{\sigma^2t^2}{2}} \\
& = \sigma^2 \cdot e^{\mu t + \frac{\sigma^2t^2}{2}} + (\mu + t\sigma^2)^2 \cdot e^{\mu t + \frac{\sigma^2t^2}{2}} \\
\end{aligned}
\end{equation*}
- $M^{(1)}_X(0) = E(X) = \mu$ \begin{equation*}
'Lecture > Elementary Stat' 카테고리의 다른 글
6. 표본의 분포 (Sampling distribution) (0) | 2023.01.17 |
---|---|
5. 이변량 분포 (Bivariate distribution) (0) | 2023.01.16 |
3. 이산형 분포 (Discrete distribution) (0) | 2023.01.12 |
2. 확률변수와 확률분포 (Random variable and Probability distribution) (0) | 2023.01.11 |
1. 확률 (Probability) (0) | 2023.01.10 |