フィッシャーの直接確率検定

フィッシャーの直接確率検定 (Fisher exact test) は，正確確率検定とも呼ばれ，(主に) 2行2列の分割表 (クロス集計表) におけるふたつの要因が互いに独立であるかどうかを推定する検定法である．推定統計学の父，フィッシャー Ronald Aylmer Fisher によって開発された．カイ二乗検定 (独立性の検定) も同様の検定を行う方法であるが，分割表のセルの期待値に10未満のものがある場合はカイ二乗検定を行うより，フィッシャーの直接確率検定を用いるほうが良いとされる．

下のような分割表が得られたとき，フィッシャーの直接確率検定を計算する．帰無仮説 (H₀) は，2要因間に独立性が成り立つこと，すなわち，2要因の比率に差がない，または，2要因が互いに無関係であることとなる．

	要因S₁	要因S₂	計
要因T₁	a_o	b_o	w
要因T₂	c_o	d_o	x
計	y	z	n

ここで，wおよびxは各行の合計，yおよびz各列の合計，nは分割表のマスの総和であり，以下であらわされる．

\begin{eqnarray*}w=a_o+b_o\tag{1}\end{eqnarray*}

\begin{eqnarray*}x=c_o+d_o\tag{2}\end{eqnarray*}

\begin{eqnarray*}y=a_o+c_o\tag{3}\end{eqnarray*}

\begin{eqnarray*}z=b_o+d_o\tag{4}\end{eqnarray*}

\begin{eqnarray*}n=a_o+b_o+c_o+d_o\tag{5}\end{eqnarray*}

最初に，このような分割表が生起する確率P_oを計算する．以下のように計算される．この確率は，w個の要素数を持つ，ある属性とx個の要素数を持つ別の属性からなる，合計n個の要素からy個の標本を非復元抽出した結果として，w個の要素数を持つ属性からa_o個の要素が抽出された際に，a_oが従う分布，すなわち超幾何分布 HG(n, w, y) から導かれる確率と等しい．

\begin{eqnarray*}P_o&=&\frac{{}_wC_{a_o}\cdot{}_xC_{c_o}}{{}_n C_y}\\&=&\left.\frac{w!}{a_o!(w-a_o)!}\cdot\frac{x!}{c_o!(x-c_o)!}\right/\frac{n!}{y!(n-y)!}\\&=&\frac{w!x!y!z!}{n!a_o!b_o!c_o!d_o!}\tag{6}\end{eqnarray*}

以上の確率は，上の分割表が得られた直接確率である．次にこの分割表が起こるよりさらに極端な場合の確率を全て計算し，それらの総和をとることでp値を求める．それには以下のような分割表を新たに考える．また，このような分割表が起きる確率をP_iとする．

	要因S₁	要因S₂	計
要因T₁	a_i	b_i	w
要因T₂	c_i	d_i	x
計	y	z	n

以上の分割表が生起する確率P_iは上と同様に以下のようにあらわされる．

\begin{eqnarray*}P_i=\frac{w!x!y!z!}{n!a_i!b_i!c_i!d_i!}\tag{7}\end{eqnarray*}

この式を用いて，a_i，b_i，c_i，d_iの全ての組み合わせについてのP_iを計算する．ここで，周辺度数であるw，x，y，zは全て固定されているため，2行2列の分割表に関しては，自由度が1となり，4つのマスのうち1つを変更すれば，それに伴い他の3つのマスの値が決定される (2行2列以上の分割表，例えば3行3列の分割表の場合，自由度は4となり，計算量が大幅に増加する．)．そのため，この場合はa_iの値を0から，wまたはyのうちで小さいほう (min{w, y}) まで変化させ，それに対応する確率を全て計算すれば良いことになる．そのような手順で全ての確率P_iを計算し，最後にそれらP_iのうちでP_o以下の値を通算する．

\begin{eqnarray*}p=\sum_{i=0}^{\mathrm{min}\{w,y\}}P_i\,\,\,\,\,\,\,\forall; P_i\leq P_o\tag{8}\end{eqnarray*}

この値がフィッシャーの直接確率検定で求めるp値となる．最後に，この値があらかじめ設定した有意水準より小さいとき，帰無仮説を棄却し，対立仮説を採用し，2要因は互いに独立ではないと結論付ける．

カイ二乗検定

超幾何分布

Rによるフィッシャーの直接確率検定

フィッシャーの直接確率検定

フィッシャーの直接確率検定

関連事項