統計検定の繰り返し
A,BおよびCの3群以上のサンプルデータがあるとき,これらの統計検定つまり,A-B間,B-C間およびC-A間の統計検定に t検定を用いることはできない.
これらの3組の検定を2群間における3回のt検定で行ったと仮定した場合,少なくともひとつの組み合わせに差が出る確率は (1 - すべての組み合わせで差が出ない確率),すなわち,(1 - (A-B間で差が出ない確率) * (B-C間で差が出ない確率) * (C-A間で差が出ない確率))で与えられるが,この値は各サンプルデータ間で差が出る確率より大きな数になる.例えば,各サンプルデータ間で差が出る確率を0.01とした場合,上の値は 1 - (1 - 0.01) * (1 - 0.01) * (1 - 0.01) より0.029701と計算される.これは,各サンプルデータ間で差が出る確率として設定した0.01より遥かに大きい数値である.
一般に,α を群間で差が出る確率とおいたとき,少なくともひとつの組み合わせに差が出る確率は上と同様の方法で 1 - (1 - α)n と表されるが,この値を α が0.01のときと0.05のときで n=3 から n=10 まで計算した値が以下の表である.以下に示されるように,群間で差が出る確率がたとえ5%であったとしても検定を10回繰り返すと少なくともそれらの組み合わせて差が出る確率は約40%に達する.
n | α=0.01 | α=0.05 |
---|---|---|
3 | 0.0297 | 0.1426 |
4 | 0.0394 | 0.1855 |
5 | 0.0490 | 0.2262 |
6 | 0.0585 | 0.2649 |
7 | 0.0679 | 0.3017 |
8 | 0.0772 | 0.3366 |
9 | 0.0865 | 0.3698 |
10 | 0.0956 | 0.4013 |
このように,統計検定を繰り返すと差が出る確率が大きくなってしまうため,3群以上のデータにおいては検定を複数回行うことは避けるべきである.3群以上の統計検定を行う場合は最低でもボンフェローニ法を使うか,ダネット検定やチューキー・クレーマー検定などのよりアドホックな多重比較法を用いる.