理論関連事項

統計学の基本事項,確率分布の詳細,各種データ解析法の理論的背景について.

勾配降下法における学習率を決定する方法を直線探索法という.二分探索法をはじめとして様々な直線探索法が考案されてきた.ここで,$t$ は現在のステップをあらわす.また,$\alpha_{t}$,$\boldsymbol{g}_t$ および $\boldsymbol{d}_t$ はステップ $t$ における学習率,勾配ベクトルおよび更新方向.

二分探索法

二分探索法は最もナイーブな直線探索法.以下のように,適当なステップで学習率を半分にする.

\begin{eqnarray*}\alpha_{t+1}=\alpha_{t}/2\tag{1}\end{eqnarray*}

アルミホの基準

定数 $0<\xi<1$ を用いて,以下の条件を満たすように学習率を決定するとき,以下の条件をアルミホ (Armijio) の基準という.

\begin{eqnarray*}f(\boldsymbol{x}+\alpha\boldsymbol{d})-f(\boldsymbol{x})\leq\xi\alpha{}^t\!\boldsymbol{g}\boldsymbol{d}\tag{2}\end{eqnarray*}

ウルフの基準

さらに,$\xi<\mu<1$ を満たす定数を用いて,以下の条件を満たすように学習率を決定するとき,以下の条件をウルフ (Wolfe) の基準という.

\begin{eqnarray*}\mu{}^t\!\boldsymbol{g}\boldsymbol{d}\leq{}^t\!(\nabla f(\boldsymbol{x}+\alpha\boldsymbol{d}))\boldsymbol{d}\tag{3}\end{eqnarray*}
Hatena Google+