理論関連事項

統計学の基本事項,確率分布の詳細,各種データ解析法の理論的背景について.

超幾何分布 (hypergeometric distribution) とは,M個の要素数を持つある属性とN-M個の要素数を持つ別の属性からなる,合計N個の要素からn個の標本を非復元抽出した結果として,M個の要素数を持つある属性からx個の要素が抽出された際に,そのxが従う分布である.実際には,資源調査等で用いられる捕獲再捕獲法等に応用されたり,フィッシャーの直接確率検定に応用されたりしている.その確率質量関数は以下の式にて与えられる.

\begin{eqnarray*}f(x)=\frac{{}_M\mathrm{C}_x\cdot {}_{N-M}\mathrm{C}_{n-x}}{{}_N\mathrm{C}_n}\tag{1}\end{eqnarray*}

超幾何分布を規定するパラメーターは母集団の要素の数Nある属性の要素数M標本数のn,以上の3つであり,本確率分布は,HG(N, M, n) にて表される.超幾何分布が超幾何分布であるために重要な要因のひとつとして,要素の抽出が非復元抽出であることが挙げられる.要素の抽出が復元抽出に従う場合は,その確率分布は二項分布に従うことになる.

xは自然数であり,以下の範囲を満たす値である.これは,nがN-Mより小さいときのxの最小値が0,または,nがN-M以上であるときはn-(N-M)であること,および,nがMより小さいとき,xの最大値がn,または,nがM以上のとき,Mであることに由来する.

\begin{eqnarray*}\mathrm{max}(0, n-(N-M))\leq x\leq\mathrm{min}(n, M)\tag{2}\end{eqnarray*}

超幾何分布においては一般にモーメント母関数は求まらない.期待値は以下で与えられる値である.

\begin{eqnarray*}E(X)=\frac{nM}{N}\tag{3}\end{eqnarray*}

分散は以下の式で与えられる.

\begin{eqnarray*}V(X)=\left(\frac{nM}{N}\right)\left(1-\frac{M}{N}\right)\left(\frac{N-n}{N-1}\right)\tag{4}\end{eqnarray*}

期待値および分散の導出

期待値は以下のように求めることができる.xの範囲は[0, n],[0, M],[n-(N-M), n] および [n-(N-M), M] の4つのパターンが考えられるが,以下の [0, n] の場合と同じようにすべてのパターンでほぼ同じ方法で証明することができる.まず,期待値の式を以下のように変形する.最後の等式では変数の変換 (x'=x-1, N'=N-1, M'=M-1, n'=n-1) およびそれに伴うxの範囲の変換を行う.

\begin{eqnarray*}E(X)&=&\sum_{x}^{}xf(x)\\&=&\sum_{x=0}^{n}x\cdot\frac{_M\mathrm{C}_x\cdot_{N-M}\mathrm{C}_{n-x}}{_N\mathrm{C}_n}\\&=&\sum_{x=1}^{n}x\cdot\frac{_M\mathrm{C}_x\cdot_{N-M}\mathrm{C}_{n-x}}{_N\mathrm{C}_n}\\&=&\sum_{x=1}^{n}x\cdot\frac{M!}{(M-x)!x!}\cdot\frac{(N-n)!n!}{N!}\cdot_{N-M}\mathrm{C}_{n-x}\\&=&\sum_{x=1}^{n}\frac{M(M-1)!}{(M-x)!(x-1)!}\cdot\frac{n(N-n)!(n-1)!}{N(N-1)!}\cdot_{N-M}\mathrm{C}_{n-x}\\&=&\frac{nM}{N}\sum_{x=1}^{n}\frac{_{M-1}\mathrm{C}_{x-1}\cdot_{N-M}\mathrm{C}_{n-x}}{_{N-1}\mathrm{C}_{n-1}}\\&=&\frac{nM}{N}\sum_{x'=0}^{n'}\frac{_{M'}\mathrm{C}_{x'}\cdot_{N'-M'}\mathrm{C}_{n'-x'}}{_{N'}\mathrm{C}_{n'}}\tag{5}\end{eqnarray*}

ここで,確率質量関数の全範囲における和は必ず1になるので以下の等式が成り立つ.

\begin{eqnarray*}\sum_{x}f(x)&=&\sum_{x}^{}\frac{_M\mathrm{C}_x\cdot_{N-M}\mathrm{C}_{n-x}}{_N\mathrm{C}_n}\\&=&1\tag{6}\end{eqnarray*}

同様に,変数をそれぞれ別の変数に変換した以下の式でも全範囲における和は1となる.

\begin{eqnarray*}\sum_{x'}^{}\frac{_{M'}\mathrm{C}_{x'}\cdot_{N'-M'}\mathrm{C}_{n'-x'}}{_{N'}\mathrm{C}_{n'}}=1\tag{7}\end{eqnarray*}

すなわち,期待値は以下のように求まる.

\begin{eqnarray*}E(X)=\frac{nM}{N}\tag{8}\end{eqnarray*}

分散は以下のように求める.分散を求める計算には分散と期待値の間で成り立つ以下の関係式を用いる.

\begin{eqnarray*}V(X)=E(X^2)-[E(X)]^2\tag{9}\end{eqnarray*}

上の関係を用いる前に,まず E(X2)-E(X) の値を以下のように計算する.最後の等式では変数の変換 (x'=x-2, N'=N-2, M'=M-2, n'=n-2) およびそれに伴うxの範囲の変換を行う.

\begin{eqnarray*}E(X^2)-E(X)&=&\sum_{x=0}^{n}x^2f(x)-\sum_{x=0}^{n}xf(x)\\&=&\sum_{x=0}^{n}x(x-1)f(x)\\&=&\sum_{x=0}^{n}x(x-1)\cdot\frac{_{M}\mathrm{C}_{x}\cdot_{N-M}\mathrm{C}_{n-x}}{_{N}\mathrm{C}_{n}}\\&=&\sum_{x=0}^{n}x(x-1)\cdot\frac{M!}{(M-x)!x!}\cdot\frac{(N-n)!n!}{N!}\cdot_{N-M}\mathrm{C}_{n-x}\\&=&\sum_{x=2}^{n}x(x-1)\cdot\frac{M!}{(M-x)!x!}\cdot\frac{(N-n)!n!}{N!}\cdot_{N-M}\mathrm{C}_{n-x}\\&=&\sum_{x=2}^{n}\frac{M(M-1)(M-2)!}{(M-x)!(x-2)!}\cdot\frac{n(n-1)(N-n)!(n-2)!}{N(N-1)(N-2)!}\cdot_{N-M}\mathrm{C}_{n-x}\\&=&\frac{nM(n-1)(M-1)}{N(N-1)}\sum_{x=2}^{n}\frac{_{M-2}\mathrm{C}_{x-2}\cdot_{N-M}\mathrm{C}_{n-x}}{_{N-2}\mathrm{C}_{n-2}}\\&=&\frac{nM(n-1)(M-1)}{N(N-1)}\sum_{x'=0}^{n'}\frac{_{M'}\mathrm{C}_{x'}\cdot_{N'-M'}\mathrm{C}_{n'-x'}}{_{N'}\mathrm{C}_{n'}}\tag{10}\end{eqnarray*}

ここで,期待値の証明で用いたものと同様の関係,確率密度関数の全範囲における和は1となる以下の式を用いる.

\begin{eqnarray*}\sum_{x'}^{}\frac{_{M'}\mathrm{C}_{x'}\cdot_{N'-M'}\mathrm{C}_{n'-x'}}{_{N'}\mathrm{C}_{n'}}=1\tag{11}\end{eqnarray*}

以上の関係を用いることで E(X2)-E(X) は以下のように変形される.

\begin{eqnarray*}E(X^2)-E(X)=\frac{nM(n-1)(M-1)}{N(N-1)}\tag{12}\end{eqnarray*}

最後に,この計算結果を用いて分散は以下のように求める.

\begin{eqnarray*}V(X)&=&E(X^2)-[E(X)]^2\\&=&E(X^2)-E(X)+E(X)-[E(X)]^2\\&=&\frac{nM(n-1)(M-1)}{N(N-1)}+\frac{nM}{N}-\frac{n^2M^2}{N^2}\\&=&\frac{nM}{N}\frac{N(n-1)(N-1)+N(N-1)-nM(N-1)}{N(N-1)}\\&=&\frac{nM}{N}\frac{nM-nN-MN+N^2}{N(N-1)}\\&=&\frac{nM}{N}\frac{N(N-M)-n(N-M)}{N(N-1)}\\&=&\frac{nM}{N}\frac{(N-M)(N-n)}{N(N-1)}\\&=&\left(\frac{nM}{N}\right)\left(1-\frac{M}{N}\right)\left(\frac{N-n}{N-1}\right)\tag{13}\end{eqnarray*}

xの範囲は[0, n],[0, M],[n-(N-M), n]および[n-(N-M), M]の4つのパターンが考えられるが,期待値の場合と同様に,以上の [0, n] の場合とほぼ同じ方法で他の範囲の場合でも証明することができる.

超幾何分布,二項分布およびポアソン分布の関係性

超幾何分布,二項分布およびポアソン分布には密接な繋がりがある.M/Nを一定に保ち,Nを大きくすることで超幾何分布は二項分布で近似できる.一方でM/Nが小さく,nが大きいときは超幾何分布はポアソン分布にて近似できる.この関係性は M/N=p とおいた場合の二項分布とポアソン分布の関係性と同等である.

Hatena Google+