理論関連事項

統計学の基本事項,確率分布の詳細,各種データ解析法の理論的背景について.

機械学習,特に,分類学習を行った場合の予測器の性能の評価尺度は多岐に渡る.評価尺度の定義のために,真陽性 $TP$,偽陽性 $FP$,偽陰性 $FN$,真陰性 $TN$ を以下の表で定義する.

予測
現実$TP$$FN$
$FP$$TN$

このとき,本来,正であるものの数を $P$,本来,負であるものの数を $N$ としたとき,これらは以下で表される.

\begin{eqnarray*}P=TP+FN\tag{1}\end{eqnarray*}
\begin{eqnarray*}N=FP+TN\tag{2}\end{eqnarray*}

これらの表記を用いて,感度またはリコール ($TPR$),特異度 ($SPC$),精度または陽性適中率 ($PPV$),陰性適中率 ($NPV$),偽陽性率 ($FPR$),偽陰性率 ($FNR$),偽発見率 ($FDR$),正確度 ($ACC$),F値 ($F$),MCC ($MCC$) は以下の式で表される.

\begin{eqnarray*}TPR=\frac{TP}{TP+FN}=\frac{TP}{P}\tag{3}\end{eqnarray*}
\begin{eqnarray*}SPC=\frac{TN}{FP+TN}=\frac{TN}{N}\tag{4}\end{eqnarray*}
\begin{eqnarray*}PPV=\frac{TP}{TP+FP}\tag{5}\end{eqnarray*}
\begin{eqnarray*}NPV=\frac{TN}{FN+TN}\tag{6}\end{eqnarray*}
\begin{eqnarray*}FPR=\frac{FP}{FP+TN}=1-SPC\tag{7}\end{eqnarray*}
\begin{eqnarray*}FNR=\frac{FN}{TP+TN}=1-TPR\tag{8}\end{eqnarray*}
\begin{eqnarray*}FDR=\frac{FP}{TP+FP}=1-PPV\tag{9}\end{eqnarray*}
\begin{eqnarray*}ACC=\frac{TP+TN}{TP+FN+FP+TN}\tag{10}\end{eqnarray*}
\begin{eqnarray*}F=\frac{2TP}{2TP+FN+FP}\tag{11}\end{eqnarray*}
\begin{eqnarray*}MCC=\frac{TP\times TN-FP\times FN}{\sqrt{(TP+FN)(FN+TN)(TN+FP)(FP+TP)}}\tag{12}\end{eqnarray*}

感度,特異度,精度等は開発者によって容易にいくらでも調節できる.一方で,F値やMCCは開発者による調整が難しい.その観点から,F値やMCCは評価尺度としての信頼性は高い.感度を横軸,精度を縦軸にとって描いたグラフをPR曲線 (Precision recall curve) という.また,偽陽性率を横軸,感度を縦軸にとって描いたグラフをROC曲線という.感度や精度を示したいときは,そのような曲線にして図示するのが良い.

Hatena Google+