理論関連事項

統計学の基本事項,確率分布の詳細,各種データ解析法の理論的背景について.

平均値または期待値は分散および標準偏差と並んで統計学におけるもっとも重要な値であるといえる.平均値E(X)はサンプルサイズを n,各値を xi,その生起確率を pi としたとき,以下の式で表される.

\begin{eqnarray*}E(X)=\sum_{i=1}^{n}x_ip_i\tag{1}\end{eqnarray*}

この式は,小学校で習う平均値および中学校で習う期待値とまったく同じことを意味している.最初に,よく用いられる以下の式と上の式との関係性について.

\begin{eqnarray*}\frac{x_1+x_2+\cdot\cdot\cdot+x_n}{n}=\sum_{i=1}^{n}\frac{x_i}{n}\tag{2}\end{eqnarray*}

以上の式は平均値を表すものとして広く用いられているが,この式を以下のように展開・変形する.

\begin{eqnarray*}\sum_{i=1}^{n}\frac{x_i}{n}=\frac{1}{n}x_1+\frac{1}{n}x_2+\cdot\cdot\cdot+\frac{1}{n}x_n\tag{3}\end{eqnarray*}

このように変形させることで上の式は,(標本値1*その生起確率1/n) + (標本値2*その生起確率1/n) + ・・・ + (標本値n*その生起確率1/n) のように解釈できる.ここで,p1 = p2 = ... = pi = 1/n である.すなわち,以下のように式の変形ができ,最初の式と同一であることが分かる.

\begin{eqnarray*}\sum_{i=1}^{n}\frac{x_i}{n}&=&\frac{1}{n}x_1+\frac{1}{n}x_2+\cdot\cdot\cdot+\frac{1}{n}x_n\\&=&x_1p_1+x_2p_2+\cdot\cdot\cdot+x_np_n\\&=&\sum_{i=1}^{n}x_ip_i\\&=&E(X)\tag{4}\end{eqnarray*}

平均値の式は母集団に用いるとその集団の母平均を導く.

\begin{eqnarray*}E(X)=\sum_{i=1}^{n}x_ip_i=\mu\tag{5}\end{eqnarray*}

一方で,標本集団に用いた場合はその集団の標本平均を導く.

\begin{eqnarray*}E(X)=\sum_{i=1}^{n}x_ip_i=\overline{x}\tag{6}\end{eqnarray*}

以上の平均値は相加平均または算術平均といわれる平均であり最もよく用いられるものであるが,その他にも平均には相乗平均 (幾何平均),調和平均,二乗平均等がある.

相乗平均 (幾何平均) は以下で与えられる値である.地価の上昇率や企業の成長率などの平均に用いる.

\begin{eqnarray*}\mu_\mathrm G&=&\sqrt[n]{\prod_{i=1}^{n}x_i}\\&=&\sqrt[n]{x_1x_2\cdots x_n}\tag{7}\end{eqnarray*}

調和平均は以下で与えられる値である.平均速度の算出やドル・コスト平均法で用いられる.

\begin{eqnarray*}\mu_\mathrm H&=&\frac{n}{\displaystyle\sum_{i=1}^{n}\frac{1}{x_i}}\\&=&\frac{n}{\frac{1}{x_1}+\frac{1}{x_2}+\cdots+\frac{1}{x_n}}\tag{8}\end{eqnarray*}

二乗平均は以下で与えられる値である.標準偏差を求めるのに用いる.ある形と別の形のズレを表すために用いられることがある.

\begin{eqnarray*}\mu_{RMS}&=&\sqrt{\frac{1}{n}\displaystyle\sum_{i=1}^{n}x_i^{2}}\\&=&\sqrt{\frac{x_1^2+x_2^2+\cdot\cdot\cdot+x_n^2}{n}}\tag{9}\end{eqnarray*}
Hatena Google+