理論関連事項

統計学の基本事項,確率分布の詳細,各種データ解析法の理論的背景について.

代表値とは,平均値 mean,最頻値 mode および中央値 median という3つの統計量の総称である.アベレージ average という単語が日本語でしばしば平均と訳されているがこれは完全なる間違いといえる.なので,マイクロソフトのエクセルで平均値を検索する関数が average() なのは完全に間違い.

Mean または平均値と呼ばれる値は,さらに,相加平均,相乗平均,二乗平均および調和平均などに細分化されるが最もよく用いられる平均値は相加平均または算術平均と呼ばれる値である.相加平均 μ は n 個からなる統計量X について以下のようにあらわされる.

\begin{eqnarray*}\mu=\frac{1}{n}\sum_{i=1}^{n}x_i\tag{1}\end{eqnarray*}

Mode とは分布の峰に対応する値をいう.最頻値ともあらわされる.{1, 1, 2, 3, 5, 6, 8, 8, 8, 8, 8, 9, 15, 1024, 2048} のような分布があるとしたときにおいては,最も出現頻度が高い値である8が最頻値である.最頻値はヒストグラムにおいてはその度数が最大の階級の階級値を示す.

Median または中央値と呼ばれる値は分布の最も中央に位置する値のことである.上と同様に {1, 1, 2, 3, 5, 6, 8, 8, 8, 8, 8, 9, 15, 1024, 2048} のような分布を考えた際に,この分布の相加平均である210.3はこの分布を代表させる値として適切でない場合がある.明らかに1024および2048の飛び値による影響が大きい.そこで,このような場合には分布を昇順または降順に並び替えてそのちょうど真ん中の値を代表値として採用する場合があり,これを median という.

Hatena Google+