AIの暴走を防ぐために。善悪を見極める“憲法”を与えられたチャットボットが登場した
コメント
注目のコメント
OpenAIに対抗するAnthropicの対話AI「Claude」。生成AIのリスクを抑えるためにAI憲法を学習しているとのこと。
まず守るべき倫理的原則/守った回答例/守らない回答例をモデルに与えて学習させます。その後で別のAIで原則を守る回答を多数生成して訓練するとのこと。人間のフィードバックを用いた強化学習よりも、低コストで上手くゆくと言っています。
有害な回答を出す確率を抑え込むしかないのは、実は人間の教育と同じとも言えます。人間もAIも本質的には何を言い出すか分からない存在。ひたすら教え込んで行儀良く振舞うことを覚えるのです。
ただし、矛盾した要求を出されたりすると、混乱して原則を破ることはありえます。これがプロンプトインジェクション。セキュリティと同じで、当面は悪人とのいたちごっこになりそうです。何だか、アシモフのロボット工学三原則みたいになってきた。
https://ja.wikipedia.org/wiki/%E3%83%AD%E3%83%9C%E3%83%83%E3%83%88%E5%B7%A5%E5%AD%A6%E4%B8%89%E5%8E%9F%E5%89%87