AI(強化学習)を作るうえで、1.環境のモデルを作るのは大変だが、一度環境モデルがわかれば目的が変化しても対応しやすい 2.環境モデルを作らずに学習すれば早く学習できるが、目的の変化に適応できない、という問題がある。その中間となるソリューションを、複数のValue functionを作ることで解こう、というやりかた。面白い。
マイニュースに代わりフォローを今後利用しますか