統計検定に関する事柄を忘れないようにまとめます.

スチューデントのt検定 (Student t-test) とはパラメトリック検定のひとつである.検定名にあるスチューデントとは,開発者であるゴセット (William Sealy Gosset) が論文執筆時に用いていたペンネーム Student に由来する.スチューデントのt検定に加えて,ウェルチのt検定および対応のあるt検定を含めた種々のt検定はデータXおよびデータYの2つのデータ間の平均値に差があるかどうかを検定する方法であるが,スチューデントのt検定は特に,2つのデータ間に対応がなく,かつ2つのデータの分散に等分散性が仮定できるときに用いる方法である.2つのデータ間の比較を行う場合にはいくつか注意を払うべき点がある.それは以下の3点である.

  1. データ間の対応の有無
  2. データの正規生
  3. テータの等分散性

データ間の対応の有無とは,例えば以下のようなものである.ある学年のあるクラスで実施した数学のテスト結果をデータAとする.そのクラスに対し数学のドリルによる計算練習を一定期間与えた後に再度,同程度のレベルの数学のテストを受けさせ,得られたテスト結果をデータBとする.この場合の,データAおよびデータBの間には対応がある.一方で,ある学年の別のクラスで実施した数学のテスト結果をデータCとする.このデータCとデータAを比較するとき,これらのデータ間には対応がない.ただし,ある学生Dと別の学生Eにいくつもの異なるテストを受けさせてその平均値の差を比較したいとき,そのデータ間には対応がある.すなわち,2つのデータが同一の集団から得られた場合を対応があるといい,別々の標本から得られた場合を対応がないという.データ間に対応があるかないかによって用いる検定法が異なってくる.次に,データの正規性,すなわち,得られたデータが正規分布に従うかどうかについて考える必要がある.変数が正規分布に従うか否かはコルモゴロフ・スミルノフ (Kolmogorov-Smirnov) 検定やシャピロ・ウィルク (Shapiro-Wilk) 検定等にて判断することができる.最後に考慮すべき点に,2つのデータの分散の等分散性が挙げられる.等分散性は,F検定ハートレイ検定バートレット検定およびルビーン検定等にて判断することができる.ただし,検定を繰り返すことになるため,これらの正規性の検定や等分散性の検定は2群間の検定をする前に実行することは必ずも正しくない.

以上の項目を確認して,2つのデータ間に対応がなく,各々の分布に正規性および等分散性が仮定できるとき,スチューデントのt検定を行う.サンプルサイズN1およびN2のデータXおよびYの平均値の比較は以下のように行う.

データXX1, X2, X3, ..., XN1
データYY1, Y2, Y3, ..., YN2

以下の統計量Tを求める.ここで,μXおよびμYはそれぞれデータXおよびデータYの母平均である.

\begin{eqnarray*}T=\frac{(\overline{X}-\overline{Y})-(\mu_X-\mu_Y)}{\sqrt{(\frac{1}{N_1}+\frac{1}{N_2})U_{XY}^2}}\tag{1}\end{eqnarray*}

ここで,UXYは以下で与えられる値である.

\begin{eqnarray*}U_{XY}=\frac{(N_1-1)U_X^2+(N_2-1)U_Y^2}{N_1+N_2-2}\tag{2}\end{eqnarray*}

以上で与えられる統計量Tは自由度 N1+N2-2 のt分布に従う値である.ここで,検定の帰無仮説 (H0) を立てる.帰無仮説 (H0) は2群間の平均値に差がないこと,すなわち μXY=0であること,となる.そこで,μXY=0 を上の式に代入し,以下のTを得る.

\begin{eqnarray*}T=\frac{\overline{X}-\overline{Y}}{\sqrt{(\frac{1}{N_1}+\frac{1}{N_2})U_{XY}^2}}\tag{3}\end{eqnarray*}

この統計量Tが,自由度 N1+N2-2 のt分布上にてあらかじめ設定した棄却域に入るか否かを考える.帰無仮説が棄却されたら比較している2群間の平均値には差がないとはいえない (実質的には差がある) と結論する.

Hatena Google+