プレミアムを無料で体験

第2回　AIの強化学習の基礎を学ぼう

＠IT

・2019/07/22

22

Picks

このまま本文を読む

本文を読む

コメント

のアイコン

注目のコメント

山崎俊彦
東京大学大学院情報理工学系研究科電子情報学専攻　教授
・2019年07月22日
もう少し違う言い方をしてみましょう。

お手本があってどこがどう良くて悪かったか判断できるようなものは教師あり学習。画像でいうとCNNで十分。

一方、お手本がなくてよかったか悪かったかだけがわかるとか(自動運転やゲームなどがそう)、お手本があってもどこがどれだけ悪いか定量できないものなど、専門的に言うと「ロスが返せないもの」は強化学習を使うのが一般的。
伊藤慧
インターネットビジネス
・2019年07月22日
コードが載っている記事は初めて見ました。

大学生の頃に心理学の授業で教わった「条件づけ」の考え方と全く一緒だなぁ、と思います。

ちなみに人間の場合、報酬は金銭や褒め言葉など色々なもので実験されていますが、今の所主要な考え方(と僕が思っているもの)では、報酬の影響は受け手が報酬をどう認知するかによって変わるようです。

AIの場合、報酬の影響はロジックを考えた人間がどう設定するか、どんなデータをどれだけ与えるかによると思います。でも総じて人間よりは偏っていないと思うので、その辺の偏りが人間の面白さや個性に繋がるんじゃないかな、と思ったり。

マイニュースに代わり
フォローを今後利用しますか