統計検定に関する事柄を忘れないようにまとめます.

正規分布に従う変数X および Y の差の検定はそれらの2変量が以下の公式および分布に従うことを利用して行う.変数が正規分布に従うか否かはコルモゴロフ・スミルノフ検定やシャピロ・ウィルク検定等にて判断することができる.各変数に正規分布に従うと判断出来る場合,t検定は以下の4つの場合に分けることができる.最初に,変数Xと変数Yに対応がある場合である.さらに,対応がない場合は,以下の3つに場合分けされる.ひとつ目は,変数Xと変数Yの母分散が既知の場合である.普通は検定対象の母分散だけが判っていることは極めて稀なので,これを考える機会は少ない.次が,変数Xと変数Yの分散が等しいと仮定できる場合である.これはスチューデントのt検定で計算できる.最後が,変数Xと変数Yの分散が等しいとは仮定できない場合である.これはWelchのt検定で計算できる.変数XおよびYの2変数に等分散性が仮定できるか否かは,F検定ハートレイ検定バートレット検定およびルビーン検定等にて判断することができる (実際は検定の繰り返しになるので慎重に扱う).

  1. 変数Xと変数Yに対応がある場合
  2. 1以外で,変数Xと変数Yの母分散が既知の場合
  3. 1以外で,変数Xと変数Yの分散が等しいと仮定できる場合
  4. 1以外で,変数Xと変数Yの分散が等しいとは仮定できない場合

最初に,1ケースである変数XとYに対応がある場合は以下の統計量Tが自由度 n-1 の t分布に従うことを利用する.n は各変数のサンプルサイズ.

\begin{eqnarray*}T=\frac{\overline{x}-\overline{y}}{{u_{d}} \bigm / {\sqrt{n}}}\tag{1}\end{eqnarray*}

このとき,ud は変数X と変数Y の各サンプル間の差の不偏分散であり,以下の式で与えられる.ここで,di は変数X と変数Y の各サンプル xi および yi の差であり,d は di の平均値である.

\begin{eqnarray*}u_d=\sqrt{\frac{1}{n-1}\displaystyle \sum_{i=1}^{n}(d_i-\overline{d})^2}\tag{2}\end{eqnarray*}

次に,2のケースである,変数Xと変数Yの母分散が既知の場合は,以下の統計量Tが標準正規分布 N(0, 12) に従うことを利用する.変数Xのサンプルサイズがn,母分散がσx2であり,変数Yのサンプルサイズがm,母分散がσy2である.

\begin{eqnarray*}T=\frac{\overline{x}-\overline{y}}{\sqrt{\frac{\sigma_x^2}{n}+\frac{\sigma_y^2}{m}}}\tag{3}\end{eqnarray*}

次に,3のケース,変数Xと変数Yの分散が等しいと仮定できる場合,すなわち,変数Xと変数Yが等分散である場合は,以下の統計量Tが自由度 n+m-2 のt分布に従うことを利用する.

\begin{eqnarray*}T=\frac{\overline{x}-\overline{y}}{\sqrt{(\frac{1}{n}+\frac{1}{m})u_{xy}^2}}\tag{4}\end{eqnarray*}

ここで,uxy2は以下の式で与えられる値である.nおよびmはそれぞれ変数XおよびYのサンプルサイズであり,ux2およびuy2は変数XおよびYの不偏分散である.

\begin{eqnarray*}u_{xy}=\frac{(n-1)u_x^2+(m-1)u_y^2}{n+m-2}\tag{5}\end{eqnarray*}

最後に,4のケースである,変数Xと変数Yの分散が等しいとは仮定できない場合,すなわち,変数Xと変数Yが等分散であるとは仮定できない場合は,以下の統計量Tが自由度 l のt分布に従うことを利用する.

\begin{eqnarray*}T=\frac{\overline{x}-\overline{y}}{\sqrt{\frac{u_x^2}{n}+\frac{u_y^2}{m}}}\tag{6}\end{eqnarray*}

ここで,自由度 l は以下の式で与えられる.得られる値が整数でない場合は四捨五入する.

\begin{eqnarray*}l=\frac{(\frac{u_x^2}{n}+\frac{u_y^2}{m})^2}{\frac{u_x^4}{n^2(n-1)}+\frac{u_y^4}{m^2(m-1)}}\tag{7}\end{eqnarray*}
Hatena Google+