理論関連事項

統計学の基本事項,確率分布の詳細,各種データ解析法の理論的背景について.

一元配置分散分析 (one-way ANOVA) とは複数群からなるデータが得られた場合,それらの平均値を比較したときに,少なくともひとつの組み合わせについて差があるのかどうかを推定する検定法である.新薬AおよびBと既存薬Cを被験者に投与し,それらの効果の有無を判定したいとき等は一元配置分散分析を行うひとつの例といえる.t検定では2群間の平均値の差の有無を推定するが,本検定法では3群以上のデータの平均値の差の検定を行う.ただし,一元配置分散分析が扱うのは要因がひとつの場合である.薬の種類に加えて例えば投与期間という要因を加えて検定を行いたい場合は二元配置分散分析を行うこととなる.分散分析は,推定統計学の父フィッシャー Ronald Aylmer Fisher によって開発された手法である.一元配置分散分析は複数の群に対して行うことができる検定方法ではあるが,有意差が存在する組み合わせまでは知ることができないため,実用的には,ダネット検定やチューキー・クレーマー検定等のよりアドホックな方法を個別に用いる方が良い.

以下のような水準1~aのa群からなるデータが得られたとき,一元配置分散分析は以下のように行う.ここでの水準と級および群は同じ意味である.帰無仮説 (H0) は,各水準のすべての組み合わせで差がないこととなる.ここで重要なのは,この帰無仮説に対する対立仮説は,少なくともひとつの組み合わせに差があることであり,全ての組み合わせに差があることではない点といえる.

データ平均
水準1x11, x12, ..., x1N1x1
水準2x21, x22, ..., x2N2x2
水準ixi1, xi2, ..., xiNixi
水準axa1, xa2, ..., xaNaxa

このようなデータに対して,分散分析では以下の統計量Tを計算する.求める値は以下のひとつのみである.

\begin{eqnarray*}T=\left.\frac{\displaystyle \sum_{i=1}^{a}N_i(\overline x_i-\overline x)^2}{a-1}\right/\frac{\displaystyle \sum_{i=1}^{a}\sum_{j=1}^{N_i}(x_{ij}-\overline x_i)^2}{\left(\displaystyle \sum_{i=1}^{a}N_i\right)-a}\tag{1}\end{eqnarray*}

ここで,aは水準数,Niは水準iの繰り返し数である.xは全データの平均値であり以下で与えられる.

\begin{eqnarray*}\left.\overline x=\sum_{i=1}^{a}\sum_{j=1}^{N_i}x_{ij}\right/\sum_{i=1}^{a}N_i\tag{2}\end{eqnarray*}

この式1に出現する値は以下のように整理できる.分子および分母は級間 (水準間) の平均平方および級内の平均平方と呼ばれる値であり,以下の記号であらわされる.

\begin{eqnarray*}V_A=\frac{\displaystyle \sum_{i=1}^{a}N_i(\overline x_i-\overline x)^2}{a-1}\tag{3}\end{eqnarray*}
\begin{eqnarray*}V_E=\frac{\displaystyle \sum_{i=1}^{a}\sum_{j=1}^{N_i}(x_{ij}-\overline x_i)^2}{\left(\displaystyle \sum_{i=1}^{a}N_i\right)-a}\tag{4}\end{eqnarray*}

これらの式の各分子はそれぞれ級間変動および級内変動と呼ばれる値であり,以下の記号であらわされる.これらの値はそれぞれ,得られたデータが級間でどれだけ変動したか,または,級内でどれだけ変動したかを示す値である.このように本検定で扱う値はある種の分散であり,これが本検定法が分散分析と呼ばれる所以である.

\begin{eqnarray*}S_A=\sum_{i=1}^{a}N_i(\overline x_i-\overline x)^2\tag{5}\end{eqnarray*}
\begin{eqnarray*}S_E=\sum_{i=1}^{a}\sum_{j=1}^{N_i}(x_{ij}-\overline x_i)^2\tag{6}\end{eqnarray*}

また,これらの変動を合わせた全変動は以下であらわされる.

\begin{eqnarray*}S_T&=&S_A+S_E\\&=&\sum_{i=1}^{a}\sum_{j=1}^{N_i}(x_{ij}-\overline x)^2\tag{7}\end{eqnarray*}

一方で,分母はそれぞれ級間の自由度および級内の自由度であり,以下であらわされる.kAは (級の個数-1),kEは (標本のサイズ-級の個数) である.

\begin{eqnarray*}k_A=a-1\tag{7}\end{eqnarray*}
\begin{eqnarray*}k_E=\left(\sum_{i=1}^{a}N_i\right)-a\tag{8}\end{eqnarray*}

すなわち,統計量Tは級内の変動に対する級間の変動の比を計算したものであり,分子の級間の変動が分母の級内の変動に対して大きければ大きいほど大きくなる値である.つまり,各水準間に明確な差があるのならばこの値は大きくなる.このような性質を持つ統計量Tは,データが正規分布に従い,かつ等分散が仮定される場合において自由度 kA および kE のF分布に従うことが知られている.よって,この統計量Tが対応するF分布上にてあらかじめ設定した棄却域に入るか否かを考える.帰無仮説が棄却されたら対立仮説を採用し,群間の組み合わせの少なくともひとつに差があると結論する.

Hatena Google+