新着Pick
93Picks
Pick に失敗しました

人気 Picker
一般的な強化学習と模倣学習では、報酬の決め方に違いがあるそうな。
①一般的な強化学習では、設計者が報酬を決めて、それを最大限に得ようと機械が学習する。報酬の設計が上手くいけば、囲碁AIのように人間を凌駕することも。
②模倣学習では、熟練者の行動から適切な報酬を機械が推定し、その報酬を最大化することで熟練者を模倣する。環境などが複雑で報酬の設計が難しい時に、まず熟練者レベルを実現する。
(※模倣学習は、報酬の決め方が逆なので、逆強化学習と呼ばれ、広義な意味では強化学習の一種のよう)

=参考=
多様な強化学習の概念と課題認識
https://shibuya.ai/report/3/
難しいのはあれよね。
普通の画像認識の範囲でおさめるか、強化学習やこの模倣学習使って、経路選択の一部を人工知能的に判断させるかでシステムかなり違いますよね。

後者は特に安全性の評価が難しい。
Googleが得意な分野は「非リアルタイム」で「クリティカルではない(致命的ではない)」部分の学習及び、それに基づく判断です。

それはAlpha GOを見ればわかります。ただ、自動運転で必要なのは「リアルタイム」かつ「クリティカル」な判断なので、違うアプローチが必要となります。

従来のアプローチは「シミュレーター」による強化学習で、違うアプローチは、今回の模倣学習でということでしょうね。

ただ、人間を模倣すると言っても、万人で、それぞれ行動が違うので、簡単に行くとは思えません。

人間の行動は、国、地域、文化などで大きく違ってくるので、模倣は簡単ではないと思います。

※個人的な見解であり、所属する会社、組織とは全く関係ありません
そんだけ走っても完成しないんだから、方向性が間違ってる