• 特集
  • 番組
  • トピックス
  • 学び
プレミアムを無料で体験

第2回 AIの強化学習の基礎を学ぼう

@IT
22
Picks
このまま本文を読む
本文を読む

コメント


のアイコン

注目のコメント

  • badge
    東京大学 大学院情報理工学系研究科電子情報学専攻 教授

    もう少し違う言い方をしてみましょう。

    お手本があってどこがどう良くて悪かったか判断できるようなものは教師あり学習。画像でいうとCNNで十分。

    一方、お手本がなくてよかったか悪かったかだけがわかるとか(自動運転やゲームなどがそう)、お手本があってもどこがどれだけ悪いか定量できないものなど、専門的に言うと「ロスが返せないもの」は強化学習を使うのが一般的。


  • インターネットビジネス

    コードが載っている記事は初めて見ました。

    大学生の頃に心理学の授業で教わった「条件づけ」の考え方と全く一緒だなぁ、と思います。

    ちなみに人間の場合、報酬は金銭や褒め言葉など色々なもので実験されていますが、今の所主要な考え方(と僕が思っているもの)では、報酬の影響は受け手が報酬をどう認知するかによって変わるようです。

    AIの場合、報酬の影響はロジックを考えた人間がどう設定するか、どんなデータをどれだけ与えるかによると思います。でも総じて人間よりは偏っていないと思うので、その辺の偏りが人間の面白さや個性に繋がるんじゃないかな、と思ったり。


アプリをダウンロード

NewsPicks について

SNSアカウント


関連サービス


法人・団体向けサービス


その他


© Uzabase, Inc

マイニュースに代わり
フォローを今後利用しますか