「負の二項分布」という名前からすると,二項分布と密接に関係があるように思えてしまいそうですが,むしろ負の二項分布は幾何分布の一般化になっています.
例えば「表が一定の確率で出るコインを繰り返し投げて,初めて表が出るまでの裏の回数」は幾何分布に従うのでした.
この幾何分布を一般化した確率分布が負の二項分布で,「コインを繰り返し投げて決めた回数表が出るまでの裏の回数」が従う確率分布を負の二項分布と言います.
確率関数の形は似ていますが,二項分布と負の二項分布は別物です.「負の二項分布」の名前の由来はこの記事の最後で解説しています.
この記事では
- 負の二項分布の定義・基本性質
- 負の二項分布の具体例
- 負の二項分布の期待値・分散・確率母関数の導出
- 補足:なぜ「負の二項分布」という名前なのか?
を順に説明します.
「重要な確率分布」の一連の記事
- 離散型確率分布の定義と期待値・分散・母関数
- 1 離散型一様分布|6面サイコロの出目の確率分布
- 2 ベルヌーイ分布|コインの裏表の確率分布
- 3 二項分布|ベルヌーイ試行の成功回数の確率分布
- 4 幾何分布|初めて成功するまで諦めない確率分布
- 負の二項分布|k回成功するまで諦めない確率分布(準備中)
- ポアソン分布|二項分布が分布収束する確率分布(準備中)
- 超幾何分布|引いたクジを戻さない確率分布(準備中)
- 連続型確率分布の定義と期待値・分散・母関数
- 連続型一様分布(準備中)
- 正規分布(準備中)
- カイ二乗分布(準備中)
- ガンマ分布(準備中)
- ベータ分布(準備中)
- t分布(準備中)
- F分布(準備中)
負の二項分布の定義・基本性質
まずは負の二項分布の定義を説明し,そのあと負の二項分布に従う確率変数の具体例を紹介します.
定義($X\sim\mrm{NB}(r,p)$)
そもそも離散型確率変数$X$の確率関数$p_X$は
と定義されるのでした.つまり,$X=k$となる確率を$p_X(k)$と表すことを思い出しておきましょう.
$r$を正の整数,$p$は$0<p<1$を満たす実数とする.離散型確率変数$X$がパラメータ$r$, $p$の負の二項分布(negative binomial distribution)に従うとは,$X$の確率関数$p_X$が
を満たすことをいう.また,このとき$X\sim\mrm{NB}(r,p)$などと表す.
$\binom{n}{k}$は二項係数で,高校数学で学ぶ組み合わせの場合の数${}_{n}\!\operatorname{C}_{k}$と同じです:$\binom{n}{k}=\frac{n!}{k!(n-k)!}$.
確率関数$p_X(k)$を
とみると意味が分かります.
反復試行の確率より$\binom{r+k-1}{k}p^{r-1}(1-p)^{k}$は「成功確率$p$のベルヌーイ試行を$(r+k-1)$回繰り返す中で$(r-1)$回成功する($k$回失敗する)確率」ですから,$p_X(k)$は「成功確率$p$のベルヌーイ試行を繰り返して$r$回成功するまでに$k$回失敗する確率」です.
よって,負の二項分布$\mrm{NB}(r,p)$に従う確率変数$X$とは,成功確率$p$のベルヌーイ試行を繰り返し,$r$回成功するまでの失敗の回数をとる確率変数のことをいうわけですね.
期待値$E[X]$・分散$V[X]$・確率母関数$G_X(s)$
のちに導出するように,負の二項分布の期待値・分散・確率母関数は次のようになります.
$X\sim\mrm{NB}(p)$の期待値$E[X]$,分散$V[X]$,確率母関数$G_X(s)$は
である.
負の二項分布の具体例
負の二項分布に従う確率変数として,コイン,サイコロを具体的に考えます.
具体例1(コイン:$\mrm{NB}(2,\frac{1}{3})$)
冒頭で紹介したように,歪んだコインを表が2回出るまで投げ続けたときの「裏が出る回数」は負の二項分布に従います.
投げると表が確率$\dfrac{1}{3}$で出る歪んだコインを投げ続け,表が2回出るまでの裏の回数を確率変数$X$とすると,$X$はどのような負の二項分布に従うか?
$X$は0以上の整数のいずれかの値をとる.正の整数$k$に対して,$X=k$ということは
- $(k+1)$回目までに表が1回出る(確率$\binom{k+1}{k}(1-\frac{1}{3})^{k}\frac{1}{3}$)
- $(k+2)$回目で表が出る(確率$\frac{1}{3}$)
ということなので,
である.よって,$X$はパラメータ$2$, $\frac{1}{3}$の負の二項分布に従う($X\sim\mrm{NB}(2,\frac{1}{3})$).
運によってはすぐに表が2回出ることもあれば,いつまで経っても裏が出続けることもあります.確率は非常に低いですが,100回裏が出続ける確率は0ではありません.
そのため,$X$は全ての正の整数の値をとり得ることに注意してください.
具体例2(サイコロ:$\mrm{NB}(3,\frac{5}{6})$)
各目が均等に出る6面サイコロを振り続け,1〜5の目が3回出るまでの6の目が出た回数を確率変数$X$とすると,$X$はどのような負の二項分布に従うか?
$X$は0以上の整数のいずれかの値をとる.正の整数$k$に対して,$X=k$ということは
- $(k+2)$回目の間で1〜5の目が2回出る(確率$\binom{k+2}{k}(1-\frac{5}{6})^{k}(\frac{5}{6})^2$)
- $(k+1)$回目で表が出る(確率$\frac{5}{6}$)
ということなので,
である.よって,$X$はパラメータ$3$, $\frac{5}{6}$の負の二項分布に従う($X\sim\mrm{NB}(3,\frac{5}{6})$).
具体例1のコインと同様に,運によってはすぐに1〜5の目が出ることもあれば,いつまで経っても6が出続けることもあります.
そのため,$X$は全ての正の整数の値をとり得ることに注意してください.
負の二項分布の期待値・分散・確率母関数の導出
負の二項分布に従う確率変数$X\sim\mrm{NB}(r,p)$の確率母関数$G_X(s)$を求め,そこから期待値$E[X]$と分散$V[X]$を求めましょう.
確率母関数$G_X(s)$の導出
$X\sim\mrm{NB}(r,p)$の確率母関数$G_X(s)$は
である.
確率母関数$G_X(s)$の定義より
である.以下,
が成り立つことを示す.
$(1-x)^{-r}$のマクローリン展開
$f(x):=(1-x)^{-r}$とおき,$f(x)$のマクローリン展開を考える.$f$の$k$階導関数は
なので,$x=0$での$k$階微分係数は
である($k=0,1,2,\dots$).よって,$f(x)$のマクローリン展開は
である.よって,
なので,
を得る.
収束半径と定義域
マクローリン展開$(*)$の収束半径は
より,1であることが分かる.
よって,$f(x)$のマクローリン展開$(*)$は$|x|<1$で定義されるから,$f(s-sp)$
で定義される.よって,確率母関数$G_X(s)$は$s<\frac{1}{|1-p|}$で定義される.
$s=e^{t}$と置き換えれば積率母関数
が得られ,$s=e^{it}$と置き換えれば特性関数
が得られますね.
平均$E[X]$の導出
$X\sim\mrm{NB}(r,p)$の期待値は$E[X]=\dfrac{(1-p)r}{p}$である.
$0<p<1$より$1<\frac{1}{|1-p|}$なので,$s<\frac{1}{|1-p|}$は$s=1$を含む.よって,確率母関数
は$s=1$で定義されている.
一般に$G’_X(1)=E[X]$であり,$G_X(s)$の$s=1$での微分係数は
なので,$E[X]=\frac{(1-p)r}{p}$を得る.
分散$V[X]$の導出
$X\sim\mrm{NB}(r,p)$の分散は$V[X]=\dfrac{1-p}{p^2}$である.
$X$の分散は
で求まる.$E[X]=\frac{(1-p)r}{p}$は上で求めたから,あとは$E[X(X-1)]$を求めればよい.
$E[X]=\frac{(1-p)r}{p}$の証明で説明したように,確率母関数$G_X(s)$は$s=1$で定義されている.
一般に$G”_X(1)=E[X(X-1)]$であり,$G_X(s)$の$s=1$での2階微分係数は
なので,$E[X(X-1)]=\frac{(1-p)^2r(r+1)}{p^2}$を得る.以上より,
を得る.
補足:なぜ「負の二項分布」という名前なのか?
最後に「負の二項分布」という名前の由来を解説します.
負の二項分布に従う確率変数$X\sim\mrm{NB}(r,p)$の確率関数は
と変形できます.最後から2つ目の等号では,分子は$k$個の因数からなるので,$k$個の$p-1$を−1倍して辻褄を合わせました.
$\binom{x}{k}=\frac{x(x-1)\dots(x-k+2)(x-k+1)}{k!}$は正の整数$x$に対してだけではなく,任意の実数$x$に対しても同様に定義されます.この$\binom{x}{k}$は一般化された二項係数と言います.
さて,通常の二項分布は次のように定義されるのでした.
$p$を$0<p<1$を満たす実数とし,$n$を正の整数とする.離散型確率変数$X$がパラメータ$n$, $p$の二項分布(binomial distribution)に従うとは,$X$の確率関数$p_X$が
を満たすことをいう.また,このとき$X\sim\mrm{Bin}(n,p)$などと表す.
上の負の二項分布と,この定義の二項分布の確率密度関数で$-r$と$n$が対応していることが見て取れます.
二項分布の$n$はベルヌーイ試行の回数でしたから,負の二項分布で$n$に対応する「負の」整数$-r$に注目して「負の二項分布」というわけですね.
参考文献
以下は参考文献です.
統計学
[久保川達也 著/東京大学出版会]
現代の統計学は社会学・心理学・機械学習など様々な分野に応用されている極めて実学的な分野です.
本書は統計学の基礎を基礎から丁寧に解説した初学者向けのテキストで,大きく
- 第1部:統計データの整理と記述のための基礎事項
- 第2部:統計学で必要となる確率の知識
- 第3部:統計的推測の基礎事項
- 第4部:社会・経済・時系列データ
の4部構成になっています(本書「はしがき」より).
著者が大学2年生に向けて行った講義に基づいて書かれており,数理的な計算はしっかり追いつつも分かりやすさを重視した記述になっています.
難易度としては統計検定の2級を少し超えたくらいになっており,部分的には準1級レベルの箇所もあります.
章末問題も豊富にあり,統計検定の2級対策としても利用できます.
さらに,著者による章末問題の略解がウェブにアップロードされているのも独学者にはありがたい点です.
コメント