統計検定に関する事柄を忘れないようにまとめます.

R にてF検定 (F-test) を行う.F検定のFは Ronald Aylmer Fisher の F に因んでいる.F検定は等分散性の検定のみならず,F分布に従う統計量の検定の総称として用いられる場合が多いが,狭義には等分散性の検定の意味で用いられる場合も多い.F検定は得られた2群のデータ間に等分散性,すなわち分散の一様性が仮定できるかどうかを検定する手法である.F検定は R のデフォルトのパッケージに備わっている関数 var.test() にて実行できる.

以下の,サンプルサイズがそれぞれ,9および10からなるデータAからBに対して,等分散性の検定を行う.帰無仮説 (H0) は2群間の母分散は等しいこととなる.

データA301, 311, 325, 291, 388, 412, 325, 361, 287
データB197, 180, 247, 260, 247, 199, 179, 134, 163, 200

p値の計算

最初に,適当な方法でデータを変数に格納する.

$ va=c(301, 311, 325, 291, 388, 412, 325, 361, 287)
$ vb=c(197, 180, 247, 260, 247, 199, 179, 134, 163, 200)

それぞれのデータが格納された変数 va および vb に対して等分散性の検定を以下のように行う.コマンドは var.test(データ1, データ2) のように用いる.

$ var.test(va,vb)

これを実行した結果は以下のようになる.

 
        F test to compare two variances

data:  va and vb
F = 1.2001, num df = 8, denom df = 9, p-value = 0.7859
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.2925646 5.2290589
sample estimates:
ratio of variances 
          1.200087 

結果より,p値があらかじめ設定した有意水準 0.05 を大きく上回っているので,帰無仮説を保留し,2群間の分散は等しいと結論する.結果の F,num df,denom df はそれぞれF統計量,分子の自由度,分母の自由度を示す.95%信頼区間はデータBに対するデータAの比の信頼区間であり,左の値が最小値,右の値が最大値を示す.この場合,その区間に1が入るため,データの分散の比が1に等しくないという対立仮説は採用されることはない.また,ratio of variances はデータAとBの単なる分散の比を示す.

オプション一覧

コマンド var.test() のオプションには以下のようなものがある.

オプション詳細
ratio数値を指定.帰無仮説を2群間の分散比が ratio で指定した値と等しい,に変更する.
alternative文字列 less, greater, two.sided で指定し,両側検定か片側検定かの指定.
conf.level数値を指定.結果として返す信頼区間を指定.
Hatena Google+