FrontPage
クロスエントロピー法によるBP法の収束加速 †
階層型ニューラルネットワークにおけるBP法には、その勾配法の欠点・改良余地に関して多くの提案がなされている。
今回は、以下の論文で提案されている改良型BP法(以下、CE法)について筆者なりに解説する。
A. Van Ooyen, B. Nienhuis, `Improving the Convergence of the Back-Propagation Algorithm`
CE法論文の要旨 †
CE法は、よりシンプルな学習信号の算出式を持つ。
そしてその学習信号はオリジナルのBP法より強力なものになる。
結果として、CE法での学習による収束は、以下の二点で改善される。
- まず、オリジナルBP法で見られる学習の停滞期が、CE法では短いか、存在すらしない。
- 二つ目に、ネットワークがほぼ正解へ収斂している状態においてより高速であることが分析によって観測された。
(A. Van Ooyen, B. Nienhuis, `Improving the Convergence of the Back-Propagation Algorithm`, Abstract)
難しい問題はさておき、CE法がどのような学習信号算出を行うのか、BP法と比較しながら示す。
CE法の特長 †
上で見た学習信号の違いは、オリジナルBP法が評価関数に通常の誤差自乗和の式を用いるのに対し、
CE法ではクロスエントロピーを用いていることに由来する。
この違いによって、評価関数を結合荷重で偏微分したときに、
結果的に、BP法で見られるo * (1 - o)の項がドロップしたシンプルな式になるのである。
オリジナルBP法における学習の停滞期とは、 †
- ほとんどの出力ユニットが正しい出力をしているが数ユニットが間違った出力(特に0または1に近い)をしている状態
- 学習の初期に多くの出力ユニットが0または1に近い状態の場合に、学習信号の小ささのため進行が遅くなる状態
CE法ではそのような場合でも直接的で強力な学習信号を発生させるため、
学習の収束を速めるという仕組みになっている。
まとめ(筆者の認識) †
教師信号が0または1のみ、またはそれに近いような、典型的な実用の場面で効果を発揮し、
しかもプログラムの実装、計算自体もシンプルになる副次的効果も持つため、積極的に利用して損はない改良型BP法と考える。
修正履歴 †
課題 †
参考ページ †
Arjen van Ooyen
短期記憶を用いたシンプルリカレントネットワークによるカオス時系列の短期予測