統計検定に関する事柄を忘れないようにまとめます.

R にてt検定を実行する.t検定は対応のないt検定と対応のあるt検定に分けられ,さらに,対応のないt検定はスチューデントのt検定ウェルチのt検定のふたつに分類される.スチューデントのt検定やウェルチのt検定は,2群間の平均値が独立である場合に用いることができる.例えば,東京都と大阪府出身の成人男性の身長の平均値の差の検定とかをしたい場合には対応がないt検定を使う.スチューデントおよびウェルチの2種類の検定法は,与えられた2群のデータが互いに等分散であるかどうかに基づいて,その使用を決定する.2群間の分散が等しい場合にはスチューデントのt検定を,等分散とはみなせられない場合にはウェルチのt検定を用いる.等分散性の検定にはF検定を用いることができる.ただし,F検定の後にt検定を用いることは検定の繰り返し行為に該当するため,正しくないと考える見方もある.

t検定の使い分け

t検定は以下の表に従って使い分ける.

状況適用すべきt検定
データに対応がある.対応のあるt検定
データに対応がなく,2群間に等分散性が仮定できる.スチューデントのt検定
データに対応がなく,2群間に等分散性が仮定できない.ウェルチのt検定

p値の計算

ウェルチのt検定を行うために以下のようなデータを考える.データXの値は平均値9,標準偏差3.5の正規分布に従う値で,データYの値は平均値3,標準偏差1.5の正規分布に従う値である.

データX13.8, 10.2, 4.6, 10.0, 4.2, 16.1, 14.4, 4.9, 7.7, 11.4
データY3.3, 2.6, 4.0, 4.7, 1.9, 2.9, 4.7, 5.3, 4.3, 3.0, 2.0

これらのデータを以下のようなコマンドで,適当な変数,vx と vy に読み込む.

$ vx=c(13.8, 10.2, 4.6, 10.0, 4.2, 16.1, 14.4, 4.9, 7.7, 11.4)
$ vy=c(3.3, 2.6, 4.0, 4.7, 1.9, 2.9, 4.7, 5.3, 4.3, 3.0, 2.0)

これらのデータのサンプルサイズは一致しないので,少なくとも対応はない.よって,スチューデントかウェルチのt検定を行うが,それを決めるためにF検定を行う.以下のように打つ.有意水準を0.05と決める.F検定の帰無仮説は,対象の2群の分散に差はないこと,なので p<0.05 なら帰無仮説は棄却され,対象の2群は不等分散,それ以外の場合は等分散と結論される.

$ var.test(x=vx,y=vy)

これを実行した結果は以下のようになる.

 
        F test to compare two variances

data:  vx and vy
F = 13.925, num df = 9, denom df = 10, p-value = 0.0003017
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
  3.684762 55.195155
sample estimates:
ratio of variances 
          13.92458 

結果より p<0.05 なので,対象の2群が等分散であるという帰無仮説は棄却され,2群間は不等分散であることが示唆された.よって,これら2群の検定にはウェルチのt検定を用いる.ウェルチのt検定はコマンド t.test() にて実行できる.実際には,t.test(x=データセット1,y=データセット2,var.equal=F,paired=F) とする.有意水準は0.05とする.帰無仮説 (H0) は,2群間の平均値に差がないこと,となる.

$ t.test(x=vx,y=vy,var.equal=F,paired=F)

これを実行した結果は以下のようになる.1行目の Welch Two Sample t-test とう表記がウェルチのt検定を実行したことを示している.結果から,p<0.05 なので帰無仮説が棄却され,これらの2群間には差があると結論する.

 
        Welch Two Sample t-test

data:  vx and vy
t = 4.4264, df = 10.174, p-value = 0.001229
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 3.092228 9.331408
sample estimates:
mean of x mean of y 
 9.730000  3.518182 

オプション一覧

オプションには以下のようなものがある.

オプション詳細
xベクトル形式のインプットデータ.必須.
yx と比較したいデータ.
alternative両側検定か片側検定の指定.'alternative="t"' のように指定する.両側検定は 't',左側検定は 'l',右側検定は 'g'を指定する.デフォルトは両側検定.
pairedT か F で指定.データ間に対応があるかないかを指定するオプション.
var.equalデータ間に等分散性が仮定できるかどうかを T または F で指定.対応のあるt検定をする場合,不要.
Hatena Google+