理論関連事項

統計学の基本事項,確率分布の詳細,各種データ解析法の理論的背景について.

統計学における標準化 (standardization) とは,与えられたデータを平均が0で分散が1のデータに変換する操作のことをいう.正規化とか規格化とも呼ばれる.

特に,任意の正規分布に従うデータX を標準正規分布 (μ=0 かつ σ2=1 の正規分布) に従うデータに変換するために用いられる場合が多い.データX の各データを標準化して得られる標準化変数または標準得点と呼ばれる値はそれぞれが標準正規分布に従う.このようなデータ変換を行う理由のひとつは,元のデータの分布上より標準正規分布のような素性が明らかな分布上でデータを議論するほうが便利で簡単になるからである.

標準化は以下のように各データ xi から平均 μ を引き,その値を標準偏差 σ で割ることで達成される.標準化変数は z で表されることが多い.Z-score というデータのずれを表す指標があるが,この Z は標準化変数の z に由来する.

\begin{eqnarray*}z_i=\frac{x_i-\mu}{\sigma}\tag{1}\end{eqnarray*}

以上の操作にて xi を標準化して得られた標準化変数 zi が標準正規分布に従うことは以下の2つの公式から理解することができる.一つ目は以下の平均値に関するものである.この式は,データX の各データに定数a を加えたデータの平均値はデータX の平均値に定数a を加えたものになることを示す.

\begin{eqnarray*}E(X+a)=E(X)+a\tag{2}\end{eqnarray*}

二つ目は分散および標準偏差に関する以下の式である.この式は,データX の各データを k倍したデータの分散はデータX の分散の k2倍になる,ということを示している.標準偏差の場合は,データを k倍したとき,新たなデータは元の標準偏差の |k| 倍となる.

\begin{eqnarray*}V(kX)=k^2V(X)\tag{3}\end{eqnarray*}
\begin{eqnarray*}D(kX)=|k|D(X)\tag{4}\end{eqnarray*}

ここで,正規分布 N(μ, σ2) に従うデータX を考えた場合,平均値の式に関して,データX からその平均値 μ を引いて得られる新たなデータの平均値は以下のようになる.

\begin{eqnarray*}E(X-\mu)&=&E(X)-\mu\\&=&\mu-\mu\\&=&0\tag{5}\end{eqnarray*}

すなわち,平均値 μ の正規分布に従うデータX からその平均値 μ を引いた新たなデータが従う正規分布の平均値は0になる.次に,標準偏差の式に関して,データX をその標準偏差σ で割った新たなデータの標準偏差は以下のようになる.

\begin{eqnarray*}D(\frac{1}{\sigma}X)&=&\left|\frac{1}{\sigma}\right|D(X)\\&=&\left|\frac{1}{\sigma}\right|\sigma\\&=&1\tag{6}\end{eqnarray*}

すなわち,標準偏差 σ の正規分布に従うデータX を σ分の1倍した新たなデータが従う正規分布の標準偏差は1になる.以上ふたつを併せることで,任意の正規分布に従うデータからその平均値 μ を引いて,その値を σ分の1した新たなデータは標準正規分布に従う,ことが分かる.一方で,正規分布に従わないデータに関して標準化を行った場合には,標準化後に得られるデータは平均は0,分散は1となるが標準正規分布に従うようになるわけではない.

Hatena Google+