第2回 AIの強化学習の基礎を学ぼう
@IT
22Picks
コメント
注目のコメント
もう少し違う言い方をしてみましょう。
お手本があってどこがどう良くて悪かったか判断できるようなものは教師あり学習。画像でいうとCNNで十分。
一方、お手本がなくてよかったか悪かったかだけがわかるとか(自動運転やゲームなどがそう)、お手本があってもどこがどれだけ悪いか定量できないものなど、専門的に言うと「ロスが返せないもの」は強化学習を使うのが一般的。コードが載っている記事は初めて見ました。
大学生の頃に心理学の授業で教わった「条件づけ」の考え方と全く一緒だなぁ、と思います。
ちなみに人間の場合、報酬は金銭や褒め言葉など色々なもので実験されていますが、今の所主要な考え方(と僕が思っているもの)では、報酬の影響は受け手が報酬をどう認知するかによって変わるようです。
AIの場合、報酬の影響はロジックを考えた人間がどう設定するか、どんなデータをどれだけ与えるかによると思います。でも総じて人間よりは偏っていないと思うので、その辺の偏りが人間の面白さや個性に繋がるんじゃないかな、と思ったり。