理論関連事項

統計学の基本事項,確率分布の詳細,各種データ解析法の理論的背景について.

データのばらつき・分布の散らばりを表す値として標準偏差がよく用いられるが,平均偏差でも同様にデータのばらつきを表現することができる.平均偏差d(X) は各標本値の平均値からのずれ (偏差) を平均したものであり,データ数を n,平均を μ としたときに以下の式で与えられる.

\begin{eqnarray*}d(X)&=&\frac{1}{n}(|x_1-\mu|+|x_2-\mu|+\cdots+|x_n-\mu|)\\&=&\frac{1}{n}\displaystyle\sum_{i=1}^{n}|x_i-\mu|\tag{1}\end{eqnarray*}

平均偏差と標準偏差はともに分布の散らばりの程度を示す値である.しかし,現実では標準偏差の方が数学的に扱いやすいため,平均偏差よりも好んで使われる.また,得られたデータに何らかの分布を仮定できる場合においてはチェビシェフの不等式によって明確に表されるように,標準偏差を考えると,データが母集団の中でどの程度の位置に存在するのかの推定が可能となる.この点からも,平均偏差より標準偏差がより用いられる.

しかし,平均偏差にも良い点があり,それは,全データの平均値から各データのズレを足し合わせるという簡単な定義式から理解できるように,得られたデータの平均からのばらつきを直感的に把握することができる点である.二乗の操作が加わることで直感的な把握が難しくなる標準偏差に対して,この点が平均偏差のアドバンテージとなる.

Hatena Google+