理論関連事項

統計学の基本事項,確率分布の詳細,各種データ解析法の理論的背景について.

フィッシャーの直接確率検定 (Fisher exact test) は,正確確率検定とも呼ばれ,(主に) 2行2列の分割表 (クロス集計表) におけるふたつの要因が互いに独立であるかどうかを推定する検定法である.推定統計学の父,フィッシャー Ronald Aylmer Fisher によって開発された.カイ二乗検定 (独立性の検定) も同様の検定を行う方法であるが,分割表のセルの期待値に10未満のものがある場合はカイ二乗検定を行うより,フィッシャーの直接確率検定を用いるほうが良いとされる.

下のような分割表が得られたとき,フィッシャーの直接確率検定を計算する.帰無仮説 (H0) は,2要因間に独立性が成り立つこと,すなわち,2要因の比率に差がない,または,2要因が互いに無関係であることとなる.

要因S1要因S2
要因T1aobow
要因T2codox
yzn

ここで,wおよびxは各行の合計,yおよびz各列の合計,nは分割表のマスの総和であり,以下であらわされる.

\begin{eqnarray*}w=a_o+b_o\tag{1}\end{eqnarray*}
\begin{eqnarray*}x=c_o+d_o\tag{2}\end{eqnarray*}
\begin{eqnarray*}y=a_o+c_o\tag{3}\end{eqnarray*}
\begin{eqnarray*}z=b_o+d_o\tag{4}\end{eqnarray*}
\begin{eqnarray*}n=a_o+b_o+c_o+d_o\tag{5}\end{eqnarray*}

最初に,このような分割表が生起する確率Poを計算する.以下のように計算される.この確率は,w個の要素数を持つ,ある属性とx個の要素数を持つ別の属性からなる,合計n個の要素からy個の標本を非復元抽出した結果として,w個の要素数を持つ属性からao個の要素が抽出された際に,aoが従う分布,すなわち超幾何分布 HG(n, w, y) から導かれる確率と等しい.

\begin{eqnarray*}P_o&=&\frac{{}_wC_{a_o}\cdot{}_xC_{c_o}}{{}_n C_y}\\&=&\left.\frac{w!}{a_o!(w-a_o)!}\cdot\frac{x!}{c_o!(x-c_o)!}\right/\frac{n!}{y!(n-y)!}\\&=&\frac{w!x!y!z!}{n!a_o!b_o!c_o!d_o!}\tag{6}\end{eqnarray*}

以上の確率は,上の分割表が得られた直接確率である.次にこの分割表が起こるよりさらに極端な場合の確率を全て計算し,それらの総和をとることでp値を求める.それには以下のような分割表を新たに考える.また,このような分割表が起きる確率をPiとする.

要因S1要因S2
要因T1aibiw
要因T2cidix
yzn

以上の分割表が生起する確率Piは上と同様に以下のようにあらわされる.

\begin{eqnarray*}P_i=\frac{w!x!y!z!}{n!a_i!b_i!c_i!d_i!}\tag{7}\end{eqnarray*}

この式を用いて,ai,bi,ci,diの全ての組み合わせについてのPiを計算する.ここで,周辺度数であるw,x,y,zは全て固定されているため,2行2列の分割表に関しては,自由度が1となり,4つのマスのうち1つを変更すれば,それに伴い他の3つのマスの値が決定される (2行2列以上の分割表,例えば3行3列の分割表の場合,自由度は4となり,計算量が大幅に増加する.).そのため,この場合はaiの値を0から,wまたはyのうちで小さいほう (min{w, y}) まで変化させ,それに対応する確率を全て計算すれば良いことになる.そのような手順で全ての確率Piを計算し,最後にそれらPiのうちでPo以下の値を通算する.

\begin{eqnarray*}p=\sum_{i=0}^{\mathrm{min}\{w,y\}}P_i\,\,\,\,\,\,\,\forall; P_i\leq P_o\tag{8}\end{eqnarray*}

この値がフィッシャーの直接確率検定で求めるp値となる.最後に,この値があらかじめ設定した有意水準より小さいとき,帰無仮説を棄却し,対立仮説を採用し,2要因は互いに独立ではないと結論付ける.

Hatena Google+