新着Pick
47Picks
Pick に失敗しました

人気 Picker
「深層強化学習においては、他船との衝突を避けるなど「上手な操船」に報酬(得点)を与えるゲーム手法で操船技術を向上させていく。」

深層学習というと、CNNをよく聞くけど、強化学習(RL)もよく聞く。何が違うんだろう?と思った方に向けての簡単な解説です。いろんな解釈・説明の仕方があるので一例として聞いてください。

操作を微分できるものは誤差逆伝播法 (back propagation)という手法が使え、精度が高いです。何がどの様に間違ったか、ニューロンにフィードバックできるからです。このときに使うのがCNN。正確にはBPを使うのがCNNなのではなくて、情報を畳み込み演算で扱うのがCNNなのですがここはわかりやすさのために。

一方、強化学習はどこかに微分できない操作が入っていて、その操作がどの様に良かったか悪かったかを瞬時に判断できない処理に使います。例えば、ゲームやこの記事にある船や自動車の操縦。いま右に舵を切ったことがどれくらい良かったか誤差逆伝播できないので、強化学習を用います。