実装関連事項

各種プログラミング言語の基本的な書き方やソフトウェア等の使用方法について.

R にてシャピロ・ウィルク検定 (Shapiro-Wilk test) を行う.シャピロ・ウィルク検定はコルモゴロフ・スミルノフ検定等と同様に,得られたデータが正規分布に従うものか否かを調べる検定法である.すなわち,データが正規母集団に由来するという帰無仮説を検定する.本検定はアメリカの統計学者 Samuel Sanford Shapiro とカナダの統計学者 Martin Bradbury Wilk によって開発された比較的新しい手法である.多くのパラメトリックな検定手法において検定対象のデータは正規分布に従うことが仮定されているため,得られたデータが正規性を有するか否かは,非常に重要な事柄である.R では,デフォルトでインストールされているパッケージの関数 shapiro.test() にて本検定を行うことができる.

p値の計算

以下のようなデータXが得られたとき,このデータが正規分布に従うか否かを検定する.帰無仮説 (H0) は標本分布が正規分布に従うことである.有意水準5%にて検定する.

データX57, 67, 23, 50, 52, 51, 48, 51, 54, 44, 31, 54, 49, 51

R を起動させ,以下のコマンドにて,上のデータXを変数 vx に格納する.

$ vx=c(57, 67, 23, 50, 52, 51, 48, 51, 54, 44, 31, 54, 49, 51)

シャピロ・ウィルク検定の使い方はシンプルで shapiro.test(x=) と打つだけで実行できる.コルモゴロフ・スミルノフ検定より簡単である.以下のように打つ.

$ shapiro.test(x=vx)

結果は以下のよう表示される.

 
        Shapiro-Wilk normality test

data:  vx
W = 0.8591, p-value = 0.02959

結果の W は本検定の検定統計量を示す.この検定では,p値が0.02959であるため,有意水準が5%で帰無仮説が棄却され (p ≤ α),データXの分布は正規分布に従うとはいえない (実質的に従わない) と判断できる.本検定にて計算されるp値はデータ数が4個以上のときは近似的に求められているものである.

コマンド shapiro.test() には,特にオプションは存在しない.

Hatena Google+