理論関連事項

統計学の基本事項,確率分布の詳細,各種データ解析法の理論的背景について.

成功または失敗等の2種類の可能な結果が生じる試行,すなわちベルヌーイ試行を独立に繰り返し続け,最初の成功が生起するまでの試行回数をxとするとき,すなわち,最初の成功が生起した時点で x-1 回の失敗が生起するとしたとき,そのときの試行回数xの分布が従う確率分布を幾何分布 (geometric distribution) という.ウイルスが薬剤耐性変異を獲得するまでの継代回数の予測等に利用することができる.パラメーター (母数) はベルヌーイ試行における成功確率pであり,幾何分布は G(p) にて略記される.確率質量関数は以下で与えられる.ここで,q は失敗の生起確率 (1-p) のことである.

\begin{eqnarray*}f(x)=pq^{x-1}\tag{1}\end{eqnarray*}

以上のように確率質量関数が幾何数列 (等比数列) の形を成しているので幾何分布とよばれる.同じ離散確率分布であり名前が似ている分布に超幾何分布があるが,本分布はそれとは別の分布である.また,幾何分布においても,確率変数Xを試行回数にする場合と失敗回数にする場合があるので注意が必要である.幾何分布においてその試行回数xは,初めて成功を得るまでの待ち時間とみなすことができ,そのため,幾何分布は離散的な待ち時間分布ともよばれる.

確率変数Xの範囲は,1以上の正の整数である.

\begin{eqnarray*}x=1,2,3,\cdots\tag{2}\end{eqnarray*}

モーメント母関数は以下で与えられる.

\begin{eqnarray*}M_X(t)=\frac{pe^t}{1-qe^t}\ \ \ \ (t<-\ln q)\tag{3}\end{eqnarray*}

期待値は以下で与えられる.

\begin{eqnarray*}E(X)=\frac{1}{p}\tag{4}\end{eqnarray*}

分散は以下の式で与えられる.

\begin{eqnarray*}V(X)=\frac{q}{p^2}\tag{5}\end{eqnarray*}

モーメント母関数,期待値および分散の導出

モーメント母関数は以下のように求められる.

\begin{eqnarray*}M_X(t)&=&E(e^{tx})\\&=&\sum_{x=1}^{\infty}e^{tx}pq^{x-1}\\&=&pe^t\sum_{x=1}^{\infty}e^{-t}e^{tx}q^{x-1}\\&=&pe^t\sum_{x=1}^{\infty}e^{t(x-1)}q^{x-1}\\&=&pe^t\sum_{x=1}^{\infty}(qe^t)^{x-1}\\&=&pe^t(1+qe^t+(qe^t)^2+\cdots)\\&=&pe^t\frac{1-(qe^t)^{\infty}}{1-qe^t}\tag{6}\end{eqnarray*}

ここで,qetが1より小さいときのみ,すなわちtが以下を満たすときのみ上式最終行の分子は1に収束する.

\begin{eqnarray*}t<-\ln q\tag{7}\end{eqnarray*}

以上より,モーメント母関数はtが上の条件を満たすとき,以下のように求まる.

\begin{eqnarray*}M_X(t)=\frac{pe^t}{1-qe^t}\tag{8}\end{eqnarray*}

上式の6行目から最終行への式の変形には以下の等比数列の和の公式 (項数n) を用いた.以上の場合は,初項は a=1,公比は r=qet である.

\begin{eqnarray*}S_n=\frac{a(1-r^n)}{1-r}\tag{9}\end{eqnarray*}

期待値および分散はモーメントを利用して求める.モーメント母関数の1階微分および2階微分は以下のようになる.

\begin{eqnarray*}M_X'(t)=pe^t(1-qe^t)^{-1}+pqe^{2t}(1-qe^t)^{-2}\tag{10}\end{eqnarray*}
\begin{eqnarray*}M_X''(t)=M_X'(t)+2pqe^{2t}(1-qe^t)^{-2}+2pq^2e^{3t}(1-qe^t)^{-3}\tag{11}\end{eqnarray*}

以上より,原点まわりの1次モーメントを用いて期待値は以下のように求まる.

\begin{eqnarray*}E(X)&=&M_X'(0)\\&=&\frac{p}{1-q}+\frac{pq}{(1-q)^2}\\&=&\frac{p+q}{p}\\&=&\frac{1}{p}\tag{12}\end{eqnarray*}

分散は原点まわりの1次モーメントおよび2次モーメントを用いて以下のように求める.

\begin{eqnarray*}V(X)&=&E(X^2)-[E(X)]^2\\&=&M_X''(0)-[M_X'(0)]^2\\&=&\frac{1}{p}+\frac{2pq}{(1-q)^2}+\frac{2pq^2}{(1-q)^3}-[M_X'(0)]^2\\&=&\frac{2q^2+2pq+p}{p^2}-\frac{1}{p^2}\\&=&\frac{q}{p^2}\tag{13}\end{eqnarray*}

無記憶性

幾何分布には,記憶の欠如または無記憶性といわれる以下の性質が備わっている.

\begin{eqnarray*}P(X>n+m\ |\ X>m)=P(X>n)\tag{14}\end{eqnarray*}

これは,確率変数Xがmより大きいという条件の下において n+m より大きいという確率はmを考慮しない場合の確率,確率変数Xが単にnより大きいという確率と等しいということを意味する.すなわち,対象とするある事象が起こる確率にそれまでの結果は影響しないということを示している.離散確率分布において,幾何分布は以上の記憶の欠如または無記憶性を有する唯一の分布である.一方で,連続確率分布においては指数分布が以上の性質を持つ.

Hatena Google+