Rによるシャピロ・ウィルク検定
R にてシャピロ・ウィルク検定 (Shapiro-Wilk test) を行う.シャピロ・ウィルク検定はコルモゴロフ・スミルノフ検定等と同様に,得られたデータが正規分布に従うものか否かを調べる検定法である.すなわち,データが正規母集団に由来するという帰無仮説を検定する.本検定はアメリカの統計学者 Samuel Sanford Shapiro とカナダの統計学者 Martin Bradbury Wilk によって開発された比較的新しい手法である.多くのパラメトリックな検定手法において検定対象のデータは正規分布に従うことが仮定されているため,得られたデータが正規性を有するか否かは,非常に重要な事柄である.R では,デフォルトでインストールされているパッケージの関数 shapiro.test() にて本検定を行うことができる.
p値の計算
以下のようなデータXが得られたとき,このデータが正規分布に従うか否かを検定する.帰無仮説 (H0) は標本分布が正規分布に従うことである.有意水準5%にて検定する.
データX | 57, 67, 23, 50, 52, 51, 48, 51, 54, 44, 31, 54, 49, 51 |
R を起動させ,以下のコマンドにて,上のデータXを変数 vx に格納する.
$ vx=c(57, 67, 23, 50, 52, 51, 48, 51, 54, 44, 31, 54, 49, 51)
シャピロ・ウィルク検定の使い方はシンプルで shapiro.test(x=) と打つだけで実行できる.コルモゴロフ・スミルノフ検定より簡単である.以下のように打つ.
$ shapiro.test(x=vx)
結果は以下のよう表示される.
Shapiro-Wilk normality test data: vx W = 0.8591, p-value = 0.02959
結果の W は本検定の検定統計量を示す.この検定では,p値が0.02959であるため,有意水準が5%で帰無仮説が棄却され (p ≤ α),データXの分布は正規分布に従うとはいえない (実質的に従わない) と判断できる.本検定にて計算されるp値はデータ数が4個以上のときは近似的に求められているものである.
コマンド shapiro.test() には,特にオプションは存在しない.