統計検定に関する事柄を忘れないようにまとめます.

ウェルチのt検定 (Welch t-test) とはスチューデントのt検定と同じく,2つのデータ間の平均値の差に関するパラメトリック検定である.スチューデントのt検定が2つのデータの母分散が等しいと仮定できるときに用いる方法であるのに対し,ウェルチのt検定は2つのデータの母分散が等しいとは限らないときに用いる検定法である.検定法の名前に冠されているウェルチとは,本検定法の開発者である20世紀のイギリスの統計学者 Bernard Lewis Welch に由来する.

ウェルチのt検定は以下のように行う.ここで,得られたデータはXおよびYであり,それぞれのサンプルサイズはN1およびN2であるとする.これら2群間の母分散は等しいとは限らないという条件のもとでデータ間の平均値の差の検定を行う.データ間の対応はないのでサンプルサイズN1およびN2は一致している必要はない.

データXX1, X2, X3, ..., XN1
データYY1, Y2, Y3, ..., YN2

最初に,以下の統計量Tを求める.ここで,μXおよびμYはそれぞれ,データXおよびデータYの母平均であるので未知数である.

\begin{eqnarray*}T=\frac{(\overline{X}-\overline{Y})-(\mu_X-\mu_Y)}{\displaystyle \sqrt{\frac{u_X^2}{N_1}+\frac{u_Y^2}{N_2}}}\tag{1}\end{eqnarray*}

ここで,分母のuXおよびuYはそれぞれデータXおよびデータYの不偏分散であり,以下で与えられる.

\begin{eqnarray*}u_X^2=\sum_{i=1}^{N_1}\frac{(X_i-\overline{X})^2}{N_1-1}\tag{2}\end{eqnarray*}
\begin{eqnarray*}u_Y^2=\sum_{i=1}^{N_2}\frac{(Y_i-\overline{Y})^2}{N_2-1}\tag{3}\end{eqnarray*}

以上で求められる統計量Tは近似的に自由度 l のt分布に従うことが知られている.これをウェルチの近似法という.自由度 l は以下によって計算される.計算の結果が整数である場合はその値が l となるが,整数とならない場合はその値に最も近い整数が l となる.

\begin{eqnarray*}l=\frac{\left(\displaystyle \frac{u_X^2}{N_1}+\frac{u_Y^2}{N_2}\right)^2}{\displaystyle \frac{u_X^4}{N_1^2(N_1-1)}+\frac{u_Y^4}{N_2^2(N_2-1)}}\tag{4}\end{eqnarray*}

次に,検定の帰無仮説を立てる.帰無仮説 (H0) は2つのデータ間の平均値に差がないこと,すなわち,μXY=0が成立すること,とする.そこで,μXY=0 を上の統計量Tの式に代入し,以下のTを得る.

\begin{eqnarray*}T=\frac{\overline{X}-\overline{Y}}{\displaystyle \sqrt{\frac{u_X}{N_1}+\frac{u_Y}{N_2}}}\tag{5}\end{eqnarray*}

以上で求めた統計量Tが自由度 l のt分布上において,あらかじめ設定した棄却域に入るか否かを考える.帰無仮説が棄却されたら対立仮説を採択し,2つのデータ間の母平均値には差がある (差が0ではない) と判断する.

Hatena Google+