統計検定に関する事柄を忘れないようにまとめます.

R にてシャピロ・ウィルク検定 (Shapiro-Wilk test) を行う.シャピロ・ウィルク検定はコルモゴロフ・スミルノフ検定等と同様に,得られたデータが正規分布に従うものか否かを調べる検定法である.すなわち,データが正規母集団に由来するという帰無仮説を検定する.本検定はアメリカの統計学者 Samuel Sanford Shapiro とカナダの統計学者 Martin Bradbury Wilk によって開発された比較的新しい手法である.多くのパラメトリックな検定手法において検定対象のデータは正規分布に従うことが仮定されているため,得られたデータが正規性を有するか否かは,非常に重要な事柄である.R では,デフォルトでインストールされているパッケージの関数 shapiro.test() にて本検定を行うことができる.

p値の計算

以下のようなデータXが得られたとき,このデータが正規分布に従うか否かを検定する.帰無仮説 (H0) は標本分布が正規分布に従うことである.有意水準5%にて検定する.

データX57, 67, 23, 50, 52, 51, 48, 51, 54, 44, 31, 54, 49, 51

R を起動させ,以下のコマンドにて,上のデータXを変数 vx に格納する.

$ vx=c(57, 67, 23, 50, 52, 51, 48, 51, 54, 44, 31, 54, 49, 51)

シャピロ・ウィルク検定の使い方はシンプルで shapiro.test(x=) と打つだけで実行できる.コルモゴロフ・スミルノフ検定より簡単である.以下のように打つ.

$ shapiro.test(x=vx)

結果は以下のよう表示される.

 
        Shapiro-Wilk normality test

data:  vx
W = 0.8591, p-value = 0.02959

結果の W は本検定の検定統計量を示す.この検定では,p値が0.02959であるため,有意水準が5%で帰無仮説が棄却され (p ≤ α),データXの分布は正規分布に従うとはいえない (実質的に従わない) と判断できる.本検定にて計算されるp値はデータ数が4個以上のときは近似的に求められているものである.

コマンド shapiro.test() には,特にオプションは存在しない.

Hatena Google+