理論関連事項

統計学の基本事項,確率分布の詳細,各種データ解析法の理論的背景について.

統計学におけるエントロピー H は,確率変数X におけるそれぞれの標本値の生起確率を pi として以下の式で表される.エントロピーは機械学習の分野では決定木のコスト関数として有名.

\begin{eqnarray*}H(X)=-\sum_{i=1}^{n}p_i\log p_i\tag{1}\end{eqnarray*}

エントロピーはデータX の分布が一様である (=様々な値をとるとき) ほど大きな値をとり,特定の標本への集中性が高いとき小さな値をとる.エントロピーが最大になる条件は以下のときである.

\begin{eqnarray*}p_1=p_2=\cdots=p_n=\frac{1}{n}\tag{2}\end{eqnarray*}

このエントロピーは情報学においては平均情報量やシャノン情報量等と呼ばれているものである.一方で物理学 (統計力学) においても最もよく用いられる量にエントロピーがある.物理学におけるエントロピーは原子や分子の乱雑さの尺度を表す量である.統計学におけるエントロピー・情報量も確率変数X が数多くの値をとればとるほど (=分布が一様であればあるほど) 大きくなる傾向があり,したがって確率変数X の取る値の乱雑さを表す尺度であると解釈することができる.つまり,統計学のエントロピーも統計力学のエントロピーも概念的にも同様の量であるとみなせる.大きく違う点としては,統計学のエントロピーの量記号は H であるのに対し,統計力学のエントロピーの量記号は S である点が挙げられる.統計力学における H はエンタルピーを意味するので注意が必要.

Hatena Google+