理論関連事項

統計学の基本事項,確率分布の詳細,各種データ解析法の理論的背景について.

母数と全数と母集団の違い

母数とはパラメーター (parameter) の日本語訳であり,全数とは whole number,母集団とは population または mother population の日本語訳である.これを混同して使っている人が多い.大学の研究室でも,教授でも准教授でも物理学出身の人でも混同している.

パラメーターとは,統計学においては主に分布の形状を決定する外的因子のことをいう.正規分布 $N(\mu,\sigma^2)$ でいうと,その分布の形状を一意に決定することができるふたつの統計量である $\mu$ と $\sigma$ のことを指す.

一方で,全数とは解析対象データ数の全体個数で,また,母集団とは統計量を得るときにその背景にある集団のこと.全数は当然として,母集団のサイズは大きい場合もあるし小さい場合もあるため,統計量の信頼性に影響を与えることがある.一方で母数の大きさは決して統計量の信頼度に影響を与えるようなものではない.

サンプル数とサンプルサイズ

サンプル数とは標本数または群の数のことであり,サンプルサイズとはその標本が内包するデータ点の個数を指す.

ワクワクバーガーのフライドポテトの長さとモグモグバーガーのその長さを比較したいとき,それぞれの店から,1000本および1200本のポテトを購入した.このときのサンプル数は2 (ワクワクバーガーとモグモグバーガーのふたつ) であり,サンプルサイズはそれぞれ,1000 (1000本のポテト) と1200 (1200本のポテト) となる.

精度と正確度と性能

精度と正確度と性能についても多くの人が混同して使っている.データサイエンティストが精度を向上させるために学習を行った,というフレーズを用いるが,機械学習で競うのは,性能であり,数多くの評価基準のうちのひとつである精度 (precision) だけでその性能を競っているわけではない.

真陽性をTP,真陰性をTN,偽陽性をFP,偽陰性をFNとした場合において,精度 (precision または positive prediction value) とは以下の式で表される値をいう.

\begin{eqnarray*}PPV=\frac{TP}{TP+FP}\tag{1}\end{eqnarray*}

正確度とは以下の式で表される値である.

\begin{eqnarray*}ACC=\frac{TP+TN}{TP+FP+FN+TN}\tag{2}\end{eqnarray*}

ハイパーパラメーター

ハイパーパラメーターとは何らかの解析や学習をする際に,前もって解析者が決定しておかなければならない統計量のことをいう.ニューラルネットワークを例にすると,データを学習することによって値が変化する重みとバイアスの値はパラメーターであり,層の数や層当たりのユニット数,ミニバッチのサイズ等はハイパーパラメーターである.

エポック

機械学習におけるエポック (epoch) とはトレーニングデータセットを学習し始めてから学習し終わるまでの時間の単位.10エポックだと,トレーニングデータセットを10回繰り返し学習したということになる.

Hatena Google+