人工「超知能」暴走防止へ、 オープンAIが初成果を発表
MITテクノロジーレビュー
1Picks
コメント
選択しているユーザー
「超人的モデルとして知られる、人間よりもはるかに賢い仮説上の未来のモデルをどのように抑制し、「アライメント」させるか」「アライメントとは、あるモデルに、人間がしてほしいことをさせて、してほしくないことをさせない」
現在のところは人間によるフィードバック(人間のテスターがモデルの反応を採点し、望ましい行動に賛成票を投じ、そうではない行動に反対票を投じる)が有効だが、超人的モデルは、人間の理解を超える可能性がある。そのとき、より劣った知性による監督は可能なのか。
「オープンAIが5年前にリリースしたモデルである「GPT-2」が、オープンAIの最新かつ最もパワフルなモデルであるGPT-4をどのように監督できるかを調べた」「もしそれがうまくいけば、同様の手法を使って人間が超人的なモデルを監督できるという証拠になるかもしれません」