- 이산형 분포 1 - 베르누이분포
- 베르누이 (Bernoulli) 시행은 통계적 시행 (trial)에서 결과가 오직 두 가지 (success & failure, S & F)만 가지는 시행을 지칭한다.
- 성공 확률이 $p$인 베르누이 시행에서 확률변수 $X$가 0 또는 1의 결과값을 취하고 다음의 확률질량함수를 가지면 베르누이분포 (Bernoulli distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
p, & x = 1 \\
1 - p, & x = 0
\end{array} $$ - '$X$는 모수 (parameter)가 $p > 0$인 베르누이분포를 따른다'고 하고 $X \sim B(1, p)$로 표기한다.
- 이산형 분포 2 - 이항분포
- 모수 $p$를 갖는 베르누이 시행을 독립적으로 $n$번 반복할 때 성공 횟수를 $X$라 하고 다음의 확률질량함수를 가지면 이항분포 (Binomial distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
\binom{n}{x} p^x (1 - p)^{n - x}, & x = 0, 1, \cdots, n \\
0, & \text{otherwise}
\end{array} $$ - '$X$는 모수가 $n \in \mathbb{N}, p > 0$인 이항분포를 따른다'고 하고 $X \sim B(n, p)$ 또는 $B(x; n, p)$로 표기한다.
- 확률변수 $X$가 모수가 $n, p$인 이항분포를 따르면 평균은 $E(X) = np$이고 분산은 $Var(X) = np(1-p)$이다.
- 이항분포의 확률질량함수 \begin{equation*}
\begin{aligned}
\sum_{x = 0}^n P(X = x)
& = \sum_{x = 0}^n \binom{n}{x} p^x (1 - p)^{n - x} \\
& = \{p + (1 - p)\}^n \\
& = 1
\end{aligned}
\end{equation*} - 이항분포의 평균 \begin{equation*}
\begin{aligned}
E(X)
& = \sum_{x = 0}^n x \cdot P(X = x) \\
& = \sum_{x = 0}^n \binom{n}{x} x \cdot p^x (1 - p)^{n - x} \\
& = \sum_{x = 0}^n \frac{n!}{x!(n - x)!} x \cdot p^x (1 - p)^{n - x} \\
& = \sum_{x = 1}^n \frac{n!}{(x - 1)!(n - x)!} p^x (1 - p)^{n - x} \\
& = n p \sum_{x = 1}^n \frac{(n - 1)!}{(x - 1)!(n - x)!} p^{x - 1} (1 - p)^{n - x} \\
& = np
\end{aligned}
\end{equation*} - 이항분포의 분산 \begin{equation*}
\begin{aligned}
Var(X)
& = E(X^2) - \{E(X)\}^2 \\
& = \sum_{x = 0}^n x^2 \cdot P(X = x) - (np)^2 \\
& = n p \sum_{x = 1}^n \frac{(n - 1)!}{(x - 1)!(n - x)!} x \cdot p^{x - 1} (1 - p)^{n - x} - (np)^2 \\
& = n p \sum_{y = 0}^{n - 1} \frac{(n - 1)!}{y!(n - y + 1)!} (y + 1) \cdot p^{y} (1 - p)^{n - y + 1} - (np)^2 \\
& = n p \bigg\{ \sum_{y = 0}^{n - 1} \frac{(n - 1)!}{y!(n - y + 1)!} y \cdot p^{y} (1 - p)^{n - y + 1} + \sum_{y = 0}^{n - 1} \frac{(n - 1)!}{y!(n - y + 1)!} 1 \cdot p^{y} (1 - p)^{n - y + 1} \bigg\} - (np)^2 \\
& = n p \{ (n - 1)p + 1 \} - (np)^2 \\
& = np(1 - p)
\end{aligned}
\end{equation*}
- 모수 $p$를 갖는 베르누이 시행을 독립적으로 $n$번 반복할 때 성공 횟수를 $X$라 하고 다음의 확률질량함수를 가지면 이항분포 (Binomial distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
더보기
Examples
어떤 식당의 만족도가 60%로 조사되었다고 할 때, 참여한 손님 중 5명을 뽑아 만족 여부를 알아보고자 한다.
- 5명 중 3명이 만족일 확률은 $$ P(X = 3) = \binom{5}{3} (0.6)^3 (1 - 0.6)^2 \approx 0.35 $$
- 5명 중 1명이 불만족일 확률은 $$ P(X = 4) = \binom{5}{4} (0.6)^4 (1 - 0.6)^1 \approx 0.23 $$
- 5명 중 만족하는 손님 수의 평균과 분산은 $$ E(X) = 5 \cdot 0.6 = 3, ~ Var(X) = 5 \cdot 0.6 \cdot (1 - 0.6) = 1.1 $$
- 이산형 분포 3 - 초기하분포
- 모집단의 크기가 $N$이고 표본의 크기가 $n$이며 모집단 내에서 주목하는 종류에 속하는 구성원의 수 (성공 횟수)를 $k$라고 할 때, 표본 내에서 주목하는 종류에 속하는 구성원의 수 (표본의 성공 횟수) $X$가 다음의 확률질량함수를 가지면 초기하분포 (Hypergeometric distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
\frac{\binom{k}{x} \binom{N - k}{n - x}}{\binom{N}{n}}, & x = 0, 1, \cdots, n, (x \le k) \\
0, & \text{otherwise}
\end{array} $$ - 초기하분포는 비복원 추출에 대한 분포이다.
- 초기하분포의 평균은 $E(X) = \frac{nk}{N}$이고 분산은 $Var(X) = \frac{nk(N - k)(N - n)}{N^2(N - 1)}$이다.
- 초기하분포의 확률질량함수 \begin{equation*}
\begin{aligned}
\sum_{x = 0}^n P(X = x)
& = \sum_{x = 0}^n \frac{\binom{k}{x} \binom{N - k}{n - x}}{\binom{N}{n}} \\
& = \frac{1}{\binom{N}{n}} \sum_{x = 0}^n \binom{k}{x} \binom{N - k}{n - x} \\
& = \frac{1}{\binom{N}{n}} \binom{N}{n} \text{ by } \textit{Vandermonde's identity}\\
& = 1
\end{aligned}
\end{equation*} - Vandermonde's identity \begin{equation*}
\begin{aligned}
\sum_{r = 0}^{m + n} \binom{m + n}{r} x^r
& = (1 + x)^{m + n} \\
& = (1 + x)^{m} \cdot (1 + x)^{n} \\
& = \sum_{i = 0}^{m} \binom{m}{i} x^i \cdot \sum_{j = 0}^{n} \binom{n}{j} x^j \\
& = \sum_{r = 0}^{m + n} \left( \sum_{k = 0}^{r} \binom{m}{k} \binom{n}{r - k} \right) x^r \\
\end{aligned}
\end{equation*} - 초기하분포의 평균 \begin{equation*}
\begin{aligned}
E(X)
& = \sum_{x = 0}^n x \cdot P(X = x) \\
& = \sum_{x = 0}^n x \cdot \frac{\binom{k}{x} \binom{N - k}{n - x}}{\binom{N}{n}} \\
& = \sum_{x = 0}^n x \cdot \frac{k!}{x!(k - x)!} \binom{N - k}{n - x} \bigg/ \binom{N}{n} \\
& = k \sum_{x = 1}^n \frac{(k - 1)!}{(x - 1)!(k - x)!} \binom{N - k}{n - x} \bigg/ \frac{N!}{n!(N - n)!} \\
& = k \frac{n}{N} \sum_{x = 1}^n \binom{k - 1}{x - 1} \binom{N - k}{n - x} \bigg/ \frac{(N - 1)!}{(n - 1)!(N - n)!} \\
& = k \frac{n}{N} \sum_{x = 1}^n \binom{k - 1}{x - 1} \binom{N - k}{n - x} \bigg/ \binom{N - 1}{n - 1} \\
& = \frac{nk}{N}
\end{aligned}
\end{equation*} - 초기하분포의 분산 \begin{equation*}
\begin{aligned}
Var(X)
& = E(X^2) - \{E(X)\}^2 \\
& = E(X^2 - X) + E(X) - \{E(X)\}^2 \\
& = \sum_{x = 0}^n x(x - 1) \cdot P(X = x) + \left(\frac{nk}{N}\right) - \left(\frac{nk}{N}\right)^2 \\
& = \sum_{x = 0}^n x(x - 1) \cdot \frac{\binom{k}{x} \binom{N - k}{n - x}}{\binom{N}{n}} + \left(\frac{nk}{N}\right) - \left(\frac{nk}{N}\right)^2 \\
& = k(k - 1) \frac{n(n - 1)}{N(N - 1)} \sum_{x = 2}^n \frac{(k - 2)!}{(x - 2)!(k - x)!} \binom{N - k}{n - x} \bigg/ \frac{(N - 2)!}{(n - 2)!(N - n)!} + \left(\frac{nk}{N}\right) - \left(\frac{nk}{N}\right)^2 \\
& = k(k - 1) \frac{n(n - 1)}{N(N - 1)} + \left(\frac{nk}{N}\right) - \left(\frac{nk}{N}\right)^2 \\
& = \frac{nk(N - k)(N - n)}{N^2(N - 1)}
\end{aligned}
\end{equation*}
- 모집단의 크기가 $N$이고 표본의 크기가 $n$이며 모집단 내에서 주목하는 종류에 속하는 구성원의 수 (성공 횟수)를 $k$라고 할 때, 표본 내에서 주목하는 종류에 속하는 구성원의 수 (표본의 성공 횟수) $X$가 다음의 확률질량함수를 가지면 초기하분포 (Hypergeometric distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
더보기
Examples
어떤 지역에서 한 식당의 손님 50명 중 30명이 재방문 의사가 있다고 할 때, 참여한 손님 중 5명을 뽑아 만족 여부를 알아보고자 한다.
- 5명 중 3명이 만족일 확률은 $$ P(X = 3) = \frac{\binom{30}{3} \binom{50 - 30}{5 - 3}}{\binom{50}{5}} \approx 0.36 $$
- 5명 중 1명 이하가 불만족일 확률은 $$ P(X \ge 4) = P(X = 4) + P(X = 5) \approx 0.33 $$
- 5명 중 만족하는 손님 수의 평균과 분산은 $$ E(X) = \frac{5 \cdot 30}{50} = 3, ~ Var(X) = \frac{5 \cdot 30 (50 - 30)(50 - 5)}{50^2(50 - 1)} = 1.1 $$
- 이산형 분포 4 - 포아송분포
- 일정 시간 동안 어떤 사건의 독립적 발생 (occurrence, arrival) 횟수 $X$가 평균적으로 $\lambda$이고 다음의 확률질량함수를 가지면 포아송분포 (Poisson distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
\frac{e^{-\lambda}\lambda^x}{x!}, & x = 0, 1, \cdots \\
0, & \text{otherwise}
\end{array} $$ - '$X$는 모수가 $\lambda > 0$인 포아송분포를 따른다'고 하고 $X \sim Pois(\lambda)$로 표기한다.
- 확률변수 $X$가 모수가 $\lambda$인 포아송분포를 따르면 평균은 $E(X) = \lambda$이고 분산은 $Var(X) = \lambda$이다.
- 포아송분포의 확률질량함수 \begin{equation*}
\begin{aligned}
\sum_{x = 0}^\infty P(X = x)
& = \sum_{x = 0}^\infty \frac{e^{-\lambda}\lambda^x}{x!} \\
& = e^{-\lambda} \sum_{x = 0}^\infty \frac{\lambda^x}{x!} \\
& = e^{-\lambda} e^{\lambda} \text{ by } \textit{Taylor's expansion} \\
& = 1
\end{aligned}
\end{equation*} - 포아송분포의 평균 \begin{equation*}
\begin{aligned}
E(X)
& = \sum_{x = 0}^\infty x \cdot P(X = x) \\
& = \sum_{x = 0}^\infty x \cdot \frac{e^{-\lambda}\lambda^x}{x!} \\
& = \lambda \sum_{x = 1}^\infty \frac{e^{-\lambda}\lambda^{(x - 1)}}{(x - 1)!} \\
& = \lambda
\end{aligned}
\end{equation*} - 포아송분포의 분산 \begin{equation*}
\begin{aligned}
Var(X)
& = E(X^2) - \{E(X)\}^2 \\
& = E(X^2 - X) + E(X) - \{E(X)\}^2 \\
& = \sum_{x = 0}^\infty x(x - 1) \cdot P(X = x) + \lambda - \lambda^2\\
& = \sum_{x = 0}^\infty x(x - 1) \cdot \frac{e^{-\lambda}\lambda^x}{x!} + \lambda - \lambda^2 \\
& = \lambda^2 \sum_{x = 2}^\infty \frac{e^{-\lambda}\lambda^{(x - 2)}}{(x - 2)!} + \lambda - \lambda^2 \\
& = \lambda
\end{aligned}
\end{equation*}
- 일정 시간 동안 어떤 사건의 독립적 발생 (occurrence, arrival) 횟수 $X$가 평균적으로 $\lambda$이고 다음의 확률질량함수를 가지면 포아송분포 (Poisson distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
더보기
Examples
어떤 식당의 1시간 동안 손님 수가 평균 6명일 때
- 다음 1시간 동안 이용객 수가 8명일 확률은 $$ P(X = 8) = \frac{e^{-6}(6)^{8}}{8!} \approx 0.10 $$
- 다음 30분 동안 이용객 수가 6명 이상일 확률은 $$ P(X \ge 6) = 1 - P(X \le 5) = 1 - \sum_{x = 0}^5 \frac{e^{-3}(3)^{x}}{x!} \approx 0.08 $$
- 다음 10분 동안 이용객 수의 평균과 분산은 $$ E(X) = 1, ~ Var(X) = 1 $$
- 이항분포의 포아송 근사
- 확률변수 $X$가 $X \sim B(n, p)$일 때, $n \rightarrow \infty, p \rightarrow 0$이고 $np \rightarrow \lambda$이면, $X \sim Pois(\lambda)$이다. 즉, $n \rightarrow \infty, p \rightarrow 0$일 때 이항분포는 포아송분포로 근사시킬 수 있다.
- proof) \begin{equation*}
\begin{aligned}
P(X = x)
& = \binom{n}{x} p^x (1 - p)^{n - x} \\
& = \frac{n!}{x!(n - x)!} \left(\frac{\lambda}{n}\right)^x \left(1 - \frac{\lambda}{n}\right)^{n - x} \\
& = \frac{n(n - 1) \cdots (n - x + 1)}{x!} \left(\frac{\lambda}{n}\right)^x \left(\frac{n}{n - \lambda}\right)^x \left(1 - \frac{\lambda}{n}\right)^n \\
& = \frac{\lambda^x}{x!} \frac{n(n - 1) \cdots (n - x + 1)}{n^x} \left(\frac{n}{n - \lambda}\right)^x \left(1 - \frac{\lambda}{n}\right)^n \\
& \rightarrow \frac{\lambda^x}{x!} e^{-\lambda}
\end{aligned}
\end{equation*}
더보기
Examples
어떤 한 사고가 어느 날 발생할 확률은 0.1이고 사고들은 서로 독립이라고 할 때
- 10일 동안 사고가 2건 발생할 확률을 이항분포로 구하면 $$ P(X_B = 2) = \binom{10}{2} 0.1^2 (1 - 0.1)^{10 - 2} \approx 0.19 $$
- 10일 동안 사고가 2건 발생할 확률을 포아송분포로 구하면 $$ P(X_P = 2) = \frac{e^{-1} 1^2}{2!} \approx 0.18 $$
- 이산형 분포 5 - 음이항분포
- 독립적 반복 시행에서 성공 확률을 $p$라고 하고, $r$번째 성공이 일어날 때까지 시행 횟수인 $X$가 다음의 확률질량함수를 가지면 음이항분포 (Negative binomial distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
\binom{x - 1}{r - 1} p^r (1 - p)^{x - r}, & x = r, r + 1, \cdots \\
0, & \text{otherwise}
\end{array} $$ - '$X$는 모수가 $r \in \mathbb{N}, p > 0$인 음이항분포를 따른다'고 하고 $X \sim B_N(x; r, p)$로 표기한다.
- 확률변수 $X$가 모수가 $r, p$인 음이항분포를 따르면 평균은 $E(X) = \frac{r}{p}$이고 분산은 $Var(X) = \frac{r(1 - p)}{p^2}$이다.
- 음이항분포의 확률질량함수 \begin{equation*}
\begin{aligned}
\sum_{x = r}^\infty P(X = x)
& = \sum_{x = r}^\infty \binom{x - 1}{r - 1} p^r (1 - p)^{x - r} \\
& = \sum_{k = 0}^\infty \binom{k + r - 1}{r - 1} p^r (1 - p)^{k} ~~~~~ (\text{let } k = x - r)\\
& = p^r \sum_{k = 0}^\infty \frac{(k + r - 1)!}{(r - 1)!k!} (1 - p)^{k} \\
& = p^r \sum_{k = 0}^\infty \frac{(r + k - 1)(r + k - 2) \cdots r}{k!} (1 - p)^{k} \\
& = p^r \sum_{k = 0}^\infty (- 1)^k \frac{(- r) (- r - 1) \cdots (-r - k + 1)}{k!} (1 - p)^{k} \\
& = p^r \sum_{k = 0}^\infty \binom{- r}{k} (p - 1)^{k} \\
& = p^r \{1 + (p - 1)\}^{- r} \\
& = 1
\end{aligned}
\end{equation*} - 음이항분포의 평균 \begin{equation*}
\begin{aligned}
E(X)
& = \sum_{x = r}^\infty x \cdot P(X = x) \\
& = \sum_{x = r}^\infty x \cdot \binom{x - 1}{r - 1} p^r (1 - p)^{x - r} \\
& = r p^r \sum_{x = r}^\infty \binom{x}{r} (1 - p)^{x - r} \\
& = r p^r \sum_{k = 0}^\infty \binom{r + k}{r} (1 - p)^{k} \\
& = r p^r \left\{ \binom{r}{r} (1 - p)^{0} + \binom{r + 1}{r} (1 - p)^{1} + \binom{r + 2}{r} (1 - p)^{2} + \cdots \right\} \\
& = r p^r \left\{ 1 + \frac{r + 1}{1!} (1 - p)^{1} + \frac{(r + 1)(r + 2)}{2!} (1 - p)^{2} + \cdots \right\} \\
& = r p^r \{1 + (p - 1)\}^{-(r + 1)} \text{ by } \textit{Taylor's expansion} \\
& = \frac{r}{p}
\end{aligned}
\end{equation*} - 음이항분포의 분산 \begin{equation*}
\begin{aligned}
Var(X)
& = E(X^2) - \{E(X)\}^2 \\
& = E(X^2 + X) - E(X) - \{E(X)\}^2 \\
& = \sum_{x = r}^\infty x(x + 1) \cdot P(X = x) - \frac{r}{p} - \left(\frac{r}{p}\right)^2 \\
& = r(r + 1) p^r \sum_{x = r}^\infty \binom{x + 1}{r + 1} (1 - p)^{x - r} - \frac{r}{p} - \left(\frac{r}{p}\right)^2 \\
& = r(r + 1) p^r \sum_{k = 0}^\infty \binom{r + k + 1}{r + 1} (1 - p)^{k} - \frac{r}{p} - \left(\frac{r}{p}\right)^2 \\
& = r(r + 1) p^r \left\{ \binom{r + 1}{r + 1} (1 - p)^{0} + \binom{r + 2}{r + 1} (1 - p)^{1} + \cdots \right\} - \frac{r}{p} - \left(\frac{r}{p}\right)^2 \\
& = r(r + 1) p^r \left\{ 1 + \frac{r + 2}{1!} (1 - p)^{1} + \cdots \right\} - \frac{r}{p} - \left(\frac{r}{p}\right)^2 \\
& = \frac{r(r + 1)}{p^2} - \frac{r}{p} - \left(\frac{r}{p}\right)^2 \\
& = \frac{r(1 - p)}{p^2}
\end{aligned}
\end{equation*}
- 독립적 반복 시행에서 성공 확률을 $p$라고 하고, $r$번째 성공이 일어날 때까지 시행 횟수인 $X$가 다음의 확률질량함수를 가지면 음이항분포 (Negative binomial distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
더보기
Examples
어떤 복권의 당첨 확률이 0.1이라고 할 때
- 3번째 복권에서 첫 당첨이 되는 확률은 $$ P(X = 3) = \binom{3 - 1}{1 - 1} 0.1^1 (1 - 0.1)^{3 - 1} \approx 0.08 $$
- 10번째 복권에서 두번째 당첨이 되는 확률은 $$ P(X = 10) = \binom{10 - 1}{2 - 1} 0.1^2 (1 - 0.1)^{10 - 2} \approx 0.04 $$
- 세번째 당첨이 될 복권 수의 평균과 분산은 $$ E(X) = \frac{3}{0.1} = 30, ~ Var(X) = \frac{3(1 - 0.1)}{0.1^2} = 270 $$
- 이산형 분포 6 - 기하분포
- 독립적 반복 시행에서 성공 확률을 $p$라고 하고, 1번째 성공이 일어날 때까지 시행 횟수인 $X$가 다음의 확률질량함수를 가지면 기하분포 (Geometric distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
p (1 - p)^{x - 1}, & x = 1, 2, \cdots \\
0, & \text{otherwise}
\end{array} $$ - '$X$는 모수가 $p > 0$인 기하분포를 따른다'고 하고 $X \sim Geo(x; p)$ 또는 $G(x; p)$로 표기한다.
- 확률변수 $X$가 모수가 $p$인 기하분포를 따르면 평균은 $E(X) = \frac{1}{p}$이고 분산은 $Var(X) = \frac{1 - p}{p^2}$이다.
- 기하분포의 확률질량함수 \begin{equation*}
\begin{aligned}
\sum_{x = 1}^\infty P(X = x)
& = \sum_{x = 1}^\infty p (1 - p)^{x - 1} \\
& = p \sum_{x = 1}^\infty (1 - p)^{x - 1} \\
& = p \frac{1}{1 - (1 - p)} \text{ by } \textit{Taylor's expansion} \\
& = 1
\end{aligned}
\end{equation*} - 기하분포의 평균 \begin{equation*}
\begin{aligned}
E(X)
& = \sum_{x = 1}^\infty x \cdot P(X = x) \\
& = \sum_{x = 1}^\infty x \cdot p (1 - p)^{x - 1} \\
& = p \sum_{x = 1}^\infty x \cdot (1 - p)^{x - 1} \\
& = p \frac{1}{p^2} \text{ by } \textit{geometric series} \\
& = \frac{1}{p}
\end{aligned}
\end{equation*} - 기하분포의 분산 \begin{equation*}
\begin{aligned}
Var(X)
& = E(X^2) - \{E(X)\}^2 \\
& = E(X^2 + X) - E(X) - \{E(X)\}^2 \\
& = \sum_{x = 1}^\infty x(x + 1) \cdot P(X = x) - \frac{1}{p} - \frac{1}{p^2} \\
& = \sum_{x = 1}^\infty x(x + 1) \cdot p (1 - p)^{x - 1} - \frac{1}{p} - \frac{1}{p^2} \\
& = p \sum_{x = 1}^\infty x(x + 1) (1 - p)^{x - 1} - \frac{1}{p} - \frac{1}{p^2} \\
& = p \frac{2}{p^3} - \frac{1}{p} - \frac{1}{p^2} \\
& = \frac{1 - p}{p^2}
\end{aligned}
\end{equation*}
- 독립적 반복 시행에서 성공 확률을 $p$라고 하고, 1번째 성공이 일어날 때까지 시행 횟수인 $X$가 다음의 확률질량함수를 가지면 기하분포 (Geometric distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
- 이산형 분포 7 - 다항분포
- 확률변수 $X_i, (i = 1, 2, \cdots, k)$를 $n$번의 시행에서 $i$번째 결과가 발생할 횟수라고 하고 $X_i$들이 다음의 결합확률질량함수를 가지면 다항분포 (Multinomial distribution)라고 한다. $$ P(X_1 = x_1, \cdots, X_k = x_k) = \bigg\{\begin{array}{lr}
\frac{n!}{x_1 ! \cdots x_k !} p_1^{x_1} \cdots p_k^{x_k}, & x_1 + \cdots + x_k = n \\
0, & \text{otherwise}
\end{array} $$ - '$X_i$들은 다항분포를 따른다'고 하고 $(X_1, \cdots, X_k) \sim Multi(n, p_1, \cdots, p_k)$로 표기한다.
- 확률변수 $X_i$의 주변확률분포는 $X_i \sim B(n, p_i)$를 따르게 되고 결과적으로 평균은 $E(X_i) = np_i$이고 분산은 $Var(X_i) = np_i(1 - p_i)$이다.
- 확률변수 $X_i, (i = 1, 2, \cdots, k)$를 $n$번의 시행에서 $i$번째 결과가 발생할 횟수라고 하고 $X_i$들이 다음의 결합확률질량함수를 가지면 다항분포 (Multinomial distribution)라고 한다. $$ P(X_1 = x_1, \cdots, X_k = x_k) = \bigg\{\begin{array}{lr}
더보기
Examples
주사위를 6번 던지는 시행에서 표면이 $i$가 나오는 횟수를 $X_i$라고 하면
- 결합확률질량함수는 $$ P(X_1 = x_1, \cdots, X_6 = x_6) = \frac{6!}{x_1 ! \cdots x_k !} \left(\frac{1}{6}\right)^{x_1} \cdots \left(\frac{1}{6}\right)^{x_6} = \frac{6!}{\displaystyle\Pi_{i = 1}^6 (x_i !)} \left(\frac{1}{6}\right)^{\displaystyle\sum^6_{i = 1} x_i} $$
- 1, 3, 5가 각 2회씩 나올 확률은 $$ P(X_1 = 2, X_2 = 0, X_3 = 2, X_4 = 0 , X_5 = 2, X_6 = 0) = \frac{6!}{2! \cdot 2! \cdot 2!} \left(\frac{1}{6}\right)^{6} $$
'Lecture > Elementary Stat' 카테고리의 다른 글
6. 표본의 분포 (Sampling distribution) (0) | 2023.01.17 |
---|---|
5. 이변량 분포 (Bivariate distribution) (0) | 2023.01.16 |
4. 연속형 분포 (Continuous distribution) (0) | 2023.01.13 |
2. 확률변수와 확률분포 (Random variable and Probability distribution) (0) | 2023.01.11 |
1. 확률 (Probability) (0) | 2023.01.10 |
- 이산형 분포 1 - 베르누이분포
- 베르누이 (Bernoulli) 시행은 통계적 시행 (trial)에서 결과가 오직 두 가지 (success & failure, S & F)만 가지는 시행을 지칭한다.
- 성공 확률이 $p$인 베르누이 시행에서 확률변수 $X$가 0 또는 1의 결과값을 취하고 다음의 확률질량함수를 가지면 베르누이분포 (Bernoulli distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
p, & x = 1 \\
1 - p, & x = 0
\end{array} $$ - '$X$는 모수 (parameter)가 $p > 0$인 베르누이분포를 따른다'고 하고 $X \sim B(1, p)$로 표기한다.
- 이산형 분포 2 - 이항분포
- 모수 $p$를 갖는 베르누이 시행을 독립적으로 $n$번 반복할 때 성공 횟수를 $X$라 하고 다음의 확률질량함수를 가지면 이항분포 (Binomial distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
\binom{n}{x} p^x (1 - p)^{n - x}, & x = 0, 1, \cdots, n \\
0, & \text{otherwise}
\end{array} $$ - '$X$는 모수가 $n \in \mathbb{N}, p > 0$인 이항분포를 따른다'고 하고 $X \sim B(n, p)$ 또는 $B(x; n, p)$로 표기한다.
- 확률변수 $X$가 모수가 $n, p$인 이항분포를 따르면 평균은 $E(X) = np$이고 분산은 $Var(X) = np(1-p)$이다.
- 이항분포의 확률질량함수 \begin{equation*}
\begin{aligned}
\sum_{x = 0}^n P(X = x)
& = \sum_{x = 0}^n \binom{n}{x} p^x (1 - p)^{n - x} \\
& = \{p + (1 - p)\}^n \\
& = 1
\end{aligned}
\end{equation*} - 이항분포의 평균 \begin{equation*}
\begin{aligned}
E(X)
& = \sum_{x = 0}^n x \cdot P(X = x) \\
& = \sum_{x = 0}^n \binom{n}{x} x \cdot p^x (1 - p)^{n - x} \\
& = \sum_{x = 0}^n \frac{n!}{x!(n - x)!} x \cdot p^x (1 - p)^{n - x} \\
& = \sum_{x = 1}^n \frac{n!}{(x - 1)!(n - x)!} p^x (1 - p)^{n - x} \\
& = n p \sum_{x = 1}^n \frac{(n - 1)!}{(x - 1)!(n - x)!} p^{x - 1} (1 - p)^{n - x} \\
& = np
\end{aligned}
\end{equation*} - 이항분포의 분산 \begin{equation*}
\begin{aligned}
Var(X)
& = E(X^2) - \{E(X)\}^2 \\
& = \sum_{x = 0}^n x^2 \cdot P(X = x) - (np)^2 \\
& = n p \sum_{x = 1}^n \frac{(n - 1)!}{(x - 1)!(n - x)!} x \cdot p^{x - 1} (1 - p)^{n - x} - (np)^2 \\
& = n p \sum_{y = 0}^{n - 1} \frac{(n - 1)!}{y!(n - y + 1)!} (y + 1) \cdot p^{y} (1 - p)^{n - y + 1} - (np)^2 \\
& = n p \bigg\{ \sum_{y = 0}^{n - 1} \frac{(n - 1)!}{y!(n - y + 1)!} y \cdot p^{y} (1 - p)^{n - y + 1} + \sum_{y = 0}^{n - 1} \frac{(n - 1)!}{y!(n - y + 1)!} 1 \cdot p^{y} (1 - p)^{n - y + 1} \bigg\} - (np)^2 \\
& = n p \{ (n - 1)p + 1 \} - (np)^2 \\
& = np(1 - p)
\end{aligned}
\end{equation*}
- 모수 $p$를 갖는 베르누이 시행을 독립적으로 $n$번 반복할 때 성공 횟수를 $X$라 하고 다음의 확률질량함수를 가지면 이항분포 (Binomial distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
더보기
Examples
어떤 식당의 만족도가 60%로 조사되었다고 할 때, 참여한 손님 중 5명을 뽑아 만족 여부를 알아보고자 한다.
- 5명 중 3명이 만족일 확률은 $$ P(X = 3) = \binom{5}{3} (0.6)^3 (1 - 0.6)^2 \approx 0.35 $$
- 5명 중 1명이 불만족일 확률은 $$ P(X = 4) = \binom{5}{4} (0.6)^4 (1 - 0.6)^1 \approx 0.23 $$
- 5명 중 만족하는 손님 수의 평균과 분산은 $$ E(X) = 5 \cdot 0.6 = 3, ~ Var(X) = 5 \cdot 0.6 \cdot (1 - 0.6) = 1.1 $$
- 이산형 분포 3 - 초기하분포
- 모집단의 크기가 $N$이고 표본의 크기가 $n$이며 모집단 내에서 주목하는 종류에 속하는 구성원의 수 (성공 횟수)를 $k$라고 할 때, 표본 내에서 주목하는 종류에 속하는 구성원의 수 (표본의 성공 횟수) $X$가 다음의 확률질량함수를 가지면 초기하분포 (Hypergeometric distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
\frac{\binom{k}{x} \binom{N - k}{n - x}}{\binom{N}{n}}, & x = 0, 1, \cdots, n, (x \le k) \\
0, & \text{otherwise}
\end{array} $$ - 초기하분포는 비복원 추출에 대한 분포이다.
- 초기하분포의 평균은 $E(X) = \frac{nk}{N}$이고 분산은 $Var(X) = \frac{nk(N - k)(N - n)}{N^2(N - 1)}$이다.
- 초기하분포의 확률질량함수 \begin{equation*}
\begin{aligned}
\sum_{x = 0}^n P(X = x)
& = \sum_{x = 0}^n \frac{\binom{k}{x} \binom{N - k}{n - x}}{\binom{N}{n}} \\
& = \frac{1}{\binom{N}{n}} \sum_{x = 0}^n \binom{k}{x} \binom{N - k}{n - x} \\
& = \frac{1}{\binom{N}{n}} \binom{N}{n} \text{ by } \textit{Vandermonde's identity}\\
& = 1
\end{aligned}
\end{equation*} - Vandermonde's identity \begin{equation*}
\begin{aligned}
\sum_{r = 0}^{m + n} \binom{m + n}{r} x^r
& = (1 + x)^{m + n} \\
& = (1 + x)^{m} \cdot (1 + x)^{n} \\
& = \sum_{i = 0}^{m} \binom{m}{i} x^i \cdot \sum_{j = 0}^{n} \binom{n}{j} x^j \\
& = \sum_{r = 0}^{m + n} \left( \sum_{k = 0}^{r} \binom{m}{k} \binom{n}{r - k} \right) x^r \\
\end{aligned}
\end{equation*} - 초기하분포의 평균 \begin{equation*}
\begin{aligned}
E(X)
& = \sum_{x = 0}^n x \cdot P(X = x) \\
& = \sum_{x = 0}^n x \cdot \frac{\binom{k}{x} \binom{N - k}{n - x}}{\binom{N}{n}} \\
& = \sum_{x = 0}^n x \cdot \frac{k!}{x!(k - x)!} \binom{N - k}{n - x} \bigg/ \binom{N}{n} \\
& = k \sum_{x = 1}^n \frac{(k - 1)!}{(x - 1)!(k - x)!} \binom{N - k}{n - x} \bigg/ \frac{N!}{n!(N - n)!} \\
& = k \frac{n}{N} \sum_{x = 1}^n \binom{k - 1}{x - 1} \binom{N - k}{n - x} \bigg/ \frac{(N - 1)!}{(n - 1)!(N - n)!} \\
& = k \frac{n}{N} \sum_{x = 1}^n \binom{k - 1}{x - 1} \binom{N - k}{n - x} \bigg/ \binom{N - 1}{n - 1} \\
& = \frac{nk}{N}
\end{aligned}
\end{equation*} - 초기하분포의 분산 \begin{equation*}
\begin{aligned}
Var(X)
& = E(X^2) - \{E(X)\}^2 \\
& = E(X^2 - X) + E(X) - \{E(X)\}^2 \\
& = \sum_{x = 0}^n x(x - 1) \cdot P(X = x) + \left(\frac{nk}{N}\right) - \left(\frac{nk}{N}\right)^2 \\
& = \sum_{x = 0}^n x(x - 1) \cdot \frac{\binom{k}{x} \binom{N - k}{n - x}}{\binom{N}{n}} + \left(\frac{nk}{N}\right) - \left(\frac{nk}{N}\right)^2 \\
& = k(k - 1) \frac{n(n - 1)}{N(N - 1)} \sum_{x = 2}^n \frac{(k - 2)!}{(x - 2)!(k - x)!} \binom{N - k}{n - x} \bigg/ \frac{(N - 2)!}{(n - 2)!(N - n)!} + \left(\frac{nk}{N}\right) - \left(\frac{nk}{N}\right)^2 \\
& = k(k - 1) \frac{n(n - 1)}{N(N - 1)} + \left(\frac{nk}{N}\right) - \left(\frac{nk}{N}\right)^2 \\
& = \frac{nk(N - k)(N - n)}{N^2(N - 1)}
\end{aligned}
\end{equation*}
- 모집단의 크기가 $N$이고 표본의 크기가 $n$이며 모집단 내에서 주목하는 종류에 속하는 구성원의 수 (성공 횟수)를 $k$라고 할 때, 표본 내에서 주목하는 종류에 속하는 구성원의 수 (표본의 성공 횟수) $X$가 다음의 확률질량함수를 가지면 초기하분포 (Hypergeometric distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
더보기
Examples
어떤 지역에서 한 식당의 손님 50명 중 30명이 재방문 의사가 있다고 할 때, 참여한 손님 중 5명을 뽑아 만족 여부를 알아보고자 한다.
- 5명 중 3명이 만족일 확률은 $$ P(X = 3) = \frac{\binom{30}{3} \binom{50 - 30}{5 - 3}}{\binom{50}{5}} \approx 0.36 $$
- 5명 중 1명 이하가 불만족일 확률은 $$ P(X \ge 4) = P(X = 4) + P(X = 5) \approx 0.33 $$
- 5명 중 만족하는 손님 수의 평균과 분산은 $$ E(X) = \frac{5 \cdot 30}{50} = 3, ~ Var(X) = \frac{5 \cdot 30 (50 - 30)(50 - 5)}{50^2(50 - 1)} = 1.1 $$
- 이산형 분포 4 - 포아송분포
- 일정 시간 동안 어떤 사건의 독립적 발생 (occurrence, arrival) 횟수 $X$가 평균적으로 $\lambda$이고 다음의 확률질량함수를 가지면 포아송분포 (Poisson distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
\frac{e^{-\lambda}\lambda^x}{x!}, & x = 0, 1, \cdots \\
0, & \text{otherwise}
\end{array} $$ - '$X$는 모수가 $\lambda > 0$인 포아송분포를 따른다'고 하고 $X \sim Pois(\lambda)$로 표기한다.
- 확률변수 $X$가 모수가 $\lambda$인 포아송분포를 따르면 평균은 $E(X) = \lambda$이고 분산은 $Var(X) = \lambda$이다.
- 포아송분포의 확률질량함수 \begin{equation*}
\begin{aligned}
\sum_{x = 0}^\infty P(X = x)
& = \sum_{x = 0}^\infty \frac{e^{-\lambda}\lambda^x}{x!} \\
& = e^{-\lambda} \sum_{x = 0}^\infty \frac{\lambda^x}{x!} \\
& = e^{-\lambda} e^{\lambda} \text{ by } \textit{Taylor's expansion} \\
& = 1
\end{aligned}
\end{equation*} - 포아송분포의 평균 \begin{equation*}
\begin{aligned}
E(X)
& = \sum_{x = 0}^\infty x \cdot P(X = x) \\
& = \sum_{x = 0}^\infty x \cdot \frac{e^{-\lambda}\lambda^x}{x!} \\
& = \lambda \sum_{x = 1}^\infty \frac{e^{-\lambda}\lambda^{(x - 1)}}{(x - 1)!} \\
& = \lambda
\end{aligned}
\end{equation*} - 포아송분포의 분산 \begin{equation*}
\begin{aligned}
Var(X)
& = E(X^2) - \{E(X)\}^2 \\
& = E(X^2 - X) + E(X) - \{E(X)\}^2 \\
& = \sum_{x = 0}^\infty x(x - 1) \cdot P(X = x) + \lambda - \lambda^2\\
& = \sum_{x = 0}^\infty x(x - 1) \cdot \frac{e^{-\lambda}\lambda^x}{x!} + \lambda - \lambda^2 \\
& = \lambda^2 \sum_{x = 2}^\infty \frac{e^{-\lambda}\lambda^{(x - 2)}}{(x - 2)!} + \lambda - \lambda^2 \\
& = \lambda
\end{aligned}
\end{equation*}
- 일정 시간 동안 어떤 사건의 독립적 발생 (occurrence, arrival) 횟수 $X$가 평균적으로 $\lambda$이고 다음의 확률질량함수를 가지면 포아송분포 (Poisson distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
더보기
Examples
어떤 식당의 1시간 동안 손님 수가 평균 6명일 때
- 다음 1시간 동안 이용객 수가 8명일 확률은 $$ P(X = 8) = \frac{e^{-6}(6)^{8}}{8!} \approx 0.10 $$
- 다음 30분 동안 이용객 수가 6명 이상일 확률은 $$ P(X \ge 6) = 1 - P(X \le 5) = 1 - \sum_{x = 0}^5 \frac{e^{-3}(3)^{x}}{x!} \approx 0.08 $$
- 다음 10분 동안 이용객 수의 평균과 분산은 $$ E(X) = 1, ~ Var(X) = 1 $$
- 이항분포의 포아송 근사
- 확률변수 $X$가 $X \sim B(n, p)$일 때, $n \rightarrow \infty, p \rightarrow 0$이고 $np \rightarrow \lambda$이면, $X \sim Pois(\lambda)$이다. 즉, $n \rightarrow \infty, p \rightarrow 0$일 때 이항분포는 포아송분포로 근사시킬 수 있다.
- proof) \begin{equation*}
\begin{aligned}
P(X = x)
& = \binom{n}{x} p^x (1 - p)^{n - x} \\
& = \frac{n!}{x!(n - x)!} \left(\frac{\lambda}{n}\right)^x \left(1 - \frac{\lambda}{n}\right)^{n - x} \\
& = \frac{n(n - 1) \cdots (n - x + 1)}{x!} \left(\frac{\lambda}{n}\right)^x \left(\frac{n}{n - \lambda}\right)^x \left(1 - \frac{\lambda}{n}\right)^n \\
& = \frac{\lambda^x}{x!} \frac{n(n - 1) \cdots (n - x + 1)}{n^x} \left(\frac{n}{n - \lambda}\right)^x \left(1 - \frac{\lambda}{n}\right)^n \\
& \rightarrow \frac{\lambda^x}{x!} e^{-\lambda}
\end{aligned}
\end{equation*}
더보기
Examples
어떤 한 사고가 어느 날 발생할 확률은 0.1이고 사고들은 서로 독립이라고 할 때
- 10일 동안 사고가 2건 발생할 확률을 이항분포로 구하면 $$ P(X_B = 2) = \binom{10}{2} 0.1^2 (1 - 0.1)^{10 - 2} \approx 0.19 $$
- 10일 동안 사고가 2건 발생할 확률을 포아송분포로 구하면 $$ P(X_P = 2) = \frac{e^{-1} 1^2}{2!} \approx 0.18 $$
- 이산형 분포 5 - 음이항분포
- 독립적 반복 시행에서 성공 확률을 $p$라고 하고, $r$번째 성공이 일어날 때까지 시행 횟수인 $X$가 다음의 확률질량함수를 가지면 음이항분포 (Negative binomial distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
\binom{x - 1}{r - 1} p^r (1 - p)^{x - r}, & x = r, r + 1, \cdots \\
0, & \text{otherwise}
\end{array} $$ - '$X$는 모수가 $r \in \mathbb{N}, p > 0$인 음이항분포를 따른다'고 하고 $X \sim B_N(x; r, p)$로 표기한다.
- 확률변수 $X$가 모수가 $r, p$인 음이항분포를 따르면 평균은 $E(X) = \frac{r}{p}$이고 분산은 $Var(X) = \frac{r(1 - p)}{p^2}$이다.
- 음이항분포의 확률질량함수 \begin{equation*}
\begin{aligned}
\sum_{x = r}^\infty P(X = x)
& = \sum_{x = r}^\infty \binom{x - 1}{r - 1} p^r (1 - p)^{x - r} \\
& = \sum_{k = 0}^\infty \binom{k + r - 1}{r - 1} p^r (1 - p)^{k} ~~~~~ (\text{let } k = x - r)\\
& = p^r \sum_{k = 0}^\infty \frac{(k + r - 1)!}{(r - 1)!k!} (1 - p)^{k} \\
& = p^r \sum_{k = 0}^\infty \frac{(r + k - 1)(r + k - 2) \cdots r}{k!} (1 - p)^{k} \\
& = p^r \sum_{k = 0}^\infty (- 1)^k \frac{(- r) (- r - 1) \cdots (-r - k + 1)}{k!} (1 - p)^{k} \\
& = p^r \sum_{k = 0}^\infty \binom{- r}{k} (p - 1)^{k} \\
& = p^r \{1 + (p - 1)\}^{- r} \\
& = 1
\end{aligned}
\end{equation*} - 음이항분포의 평균 \begin{equation*}
\begin{aligned}
E(X)
& = \sum_{x = r}^\infty x \cdot P(X = x) \\
& = \sum_{x = r}^\infty x \cdot \binom{x - 1}{r - 1} p^r (1 - p)^{x - r} \\
& = r p^r \sum_{x = r}^\infty \binom{x}{r} (1 - p)^{x - r} \\
& = r p^r \sum_{k = 0}^\infty \binom{r + k}{r} (1 - p)^{k} \\
& = r p^r \left\{ \binom{r}{r} (1 - p)^{0} + \binom{r + 1}{r} (1 - p)^{1} + \binom{r + 2}{r} (1 - p)^{2} + \cdots \right\} \\
& = r p^r \left\{ 1 + \frac{r + 1}{1!} (1 - p)^{1} + \frac{(r + 1)(r + 2)}{2!} (1 - p)^{2} + \cdots \right\} \\
& = r p^r \{1 + (p - 1)\}^{-(r + 1)} \text{ by } \textit{Taylor's expansion} \\
& = \frac{r}{p}
\end{aligned}
\end{equation*} - 음이항분포의 분산 \begin{equation*}
\begin{aligned}
Var(X)
& = E(X^2) - \{E(X)\}^2 \\
& = E(X^2 + X) - E(X) - \{E(X)\}^2 \\
& = \sum_{x = r}^\infty x(x + 1) \cdot P(X = x) - \frac{r}{p} - \left(\frac{r}{p}\right)^2 \\
& = r(r + 1) p^r \sum_{x = r}^\infty \binom{x + 1}{r + 1} (1 - p)^{x - r} - \frac{r}{p} - \left(\frac{r}{p}\right)^2 \\
& = r(r + 1) p^r \sum_{k = 0}^\infty \binom{r + k + 1}{r + 1} (1 - p)^{k} - \frac{r}{p} - \left(\frac{r}{p}\right)^2 \\
& = r(r + 1) p^r \left\{ \binom{r + 1}{r + 1} (1 - p)^{0} + \binom{r + 2}{r + 1} (1 - p)^{1} + \cdots \right\} - \frac{r}{p} - \left(\frac{r}{p}\right)^2 \\
& = r(r + 1) p^r \left\{ 1 + \frac{r + 2}{1!} (1 - p)^{1} + \cdots \right\} - \frac{r}{p} - \left(\frac{r}{p}\right)^2 \\
& = \frac{r(r + 1)}{p^2} - \frac{r}{p} - \left(\frac{r}{p}\right)^2 \\
& = \frac{r(1 - p)}{p^2}
\end{aligned}
\end{equation*}
- 독립적 반복 시행에서 성공 확률을 $p$라고 하고, $r$번째 성공이 일어날 때까지 시행 횟수인 $X$가 다음의 확률질량함수를 가지면 음이항분포 (Negative binomial distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
더보기
Examples
어떤 복권의 당첨 확률이 0.1이라고 할 때
- 3번째 복권에서 첫 당첨이 되는 확률은 $$ P(X = 3) = \binom{3 - 1}{1 - 1} 0.1^1 (1 - 0.1)^{3 - 1} \approx 0.08 $$
- 10번째 복권에서 두번째 당첨이 되는 확률은 $$ P(X = 10) = \binom{10 - 1}{2 - 1} 0.1^2 (1 - 0.1)^{10 - 2} \approx 0.04 $$
- 세번째 당첨이 될 복권 수의 평균과 분산은 $$ E(X) = \frac{3}{0.1} = 30, ~ Var(X) = \frac{3(1 - 0.1)}{0.1^2} = 270 $$
- 이산형 분포 6 - 기하분포
- 독립적 반복 시행에서 성공 확률을 $p$라고 하고, 1번째 성공이 일어날 때까지 시행 횟수인 $X$가 다음의 확률질량함수를 가지면 기하분포 (Geometric distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
p (1 - p)^{x - 1}, & x = 1, 2, \cdots \\
0, & \text{otherwise}
\end{array} $$ - '$X$는 모수가 $p > 0$인 기하분포를 따른다'고 하고 $X \sim Geo(x; p)$ 또는 $G(x; p)$로 표기한다.
- 확률변수 $X$가 모수가 $p$인 기하분포를 따르면 평균은 $E(X) = \frac{1}{p}$이고 분산은 $Var(X) = \frac{1 - p}{p^2}$이다.
- 기하분포의 확률질량함수 \begin{equation*}
\begin{aligned}
\sum_{x = 1}^\infty P(X = x)
& = \sum_{x = 1}^\infty p (1 - p)^{x - 1} \\
& = p \sum_{x = 1}^\infty (1 - p)^{x - 1} \\
& = p \frac{1}{1 - (1 - p)} \text{ by } \textit{Taylor's expansion} \\
& = 1
\end{aligned}
\end{equation*} - 기하분포의 평균 \begin{equation*}
\begin{aligned}
E(X)
& = \sum_{x = 1}^\infty x \cdot P(X = x) \\
& = \sum_{x = 1}^\infty x \cdot p (1 - p)^{x - 1} \\
& = p \sum_{x = 1}^\infty x \cdot (1 - p)^{x - 1} \\
& = p \frac{1}{p^2} \text{ by } \textit{geometric series} \\
& = \frac{1}{p}
\end{aligned}
\end{equation*} - 기하분포의 분산 \begin{equation*}
\begin{aligned}
Var(X)
& = E(X^2) - \{E(X)\}^2 \\
& = E(X^2 + X) - E(X) - \{E(X)\}^2 \\
& = \sum_{x = 1}^\infty x(x + 1) \cdot P(X = x) - \frac{1}{p} - \frac{1}{p^2} \\
& = \sum_{x = 1}^\infty x(x + 1) \cdot p (1 - p)^{x - 1} - \frac{1}{p} - \frac{1}{p^2} \\
& = p \sum_{x = 1}^\infty x(x + 1) (1 - p)^{x - 1} - \frac{1}{p} - \frac{1}{p^2} \\
& = p \frac{2}{p^3} - \frac{1}{p} - \frac{1}{p^2} \\
& = \frac{1 - p}{p^2}
\end{aligned}
\end{equation*}
- 독립적 반복 시행에서 성공 확률을 $p$라고 하고, 1번째 성공이 일어날 때까지 시행 횟수인 $X$가 다음의 확률질량함수를 가지면 기하분포 (Geometric distribution)라고 한다. $$ P(X = x) = \bigg\{\begin{array}{lr}
- 이산형 분포 7 - 다항분포
- 확률변수 $X_i, (i = 1, 2, \cdots, k)$를 $n$번의 시행에서 $i$번째 결과가 발생할 횟수라고 하고 $X_i$들이 다음의 결합확률질량함수를 가지면 다항분포 (Multinomial distribution)라고 한다. $$ P(X_1 = x_1, \cdots, X_k = x_k) = \bigg\{\begin{array}{lr}
\frac{n!}{x_1 ! \cdots x_k !} p_1^{x_1} \cdots p_k^{x_k}, & x_1 + \cdots + x_k = n \\
0, & \text{otherwise}
\end{array} $$ - '$X_i$들은 다항분포를 따른다'고 하고 $(X_1, \cdots, X_k) \sim Multi(n, p_1, \cdots, p_k)$로 표기한다.
- 확률변수 $X_i$의 주변확률분포는 $X_i \sim B(n, p_i)$를 따르게 되고 결과적으로 평균은 $E(X_i) = np_i$이고 분산은 $Var(X_i) = np_i(1 - p_i)$이다.
- 확률변수 $X_i, (i = 1, 2, \cdots, k)$를 $n$번의 시행에서 $i$번째 결과가 발생할 횟수라고 하고 $X_i$들이 다음의 결합확률질량함수를 가지면 다항분포 (Multinomial distribution)라고 한다. $$ P(X_1 = x_1, \cdots, X_k = x_k) = \bigg\{\begin{array}{lr}
더보기
Examples
주사위를 6번 던지는 시행에서 표면이 $i$가 나오는 횟수를 $X_i$라고 하면
- 결합확률질량함수는 $$ P(X_1 = x_1, \cdots, X_6 = x_6) = \frac{6!}{x_1 ! \cdots x_k !} \left(\frac{1}{6}\right)^{x_1} \cdots \left(\frac{1}{6}\right)^{x_6} = \frac{6!}{\displaystyle\Pi_{i = 1}^6 (x_i !)} \left(\frac{1}{6}\right)^{\displaystyle\sum^6_{i = 1} x_i} $$
- 1, 3, 5가 각 2회씩 나올 확률은 $$ P(X_1 = 2, X_2 = 0, X_3 = 2, X_4 = 0 , X_5 = 2, X_6 = 0) = \frac{6!}{2! \cdot 2! \cdot 2!} \left(\frac{1}{6}\right)^{6} $$
'Lecture > Elementary Stat' 카테고리의 다른 글
6. 표본의 분포 (Sampling distribution) (0) | 2023.01.17 |
---|---|
5. 이변량 분포 (Bivariate distribution) (0) | 2023.01.16 |
4. 연속형 분포 (Continuous distribution) (0) | 2023.01.13 |
2. 확률변수와 확률분포 (Random variable and Probability distribution) (0) | 2023.01.11 |
1. 확률 (Probability) (0) | 2023.01.10 |