最新版AI、日本の医師国家試験で「合格」…人間の平均点は下回る・安楽死などで不適切解答
コメント
選択しているユーザー
有名な「中国語の部屋」という実験では、「正しい答え」は「正しい理解」とは限らないということを示した。
中国語や漢字を理解できなくても、漢字の形式的構造やその組み合わせを覚えれば、「正しい答え」ができる。
しかし、観察できる行動や外観から、「内心」や「意識」は判断できないということだ。「理解したようだ」との誤解でしかない。
もっとも、そもそも、「理解」とはそういうものだとの哲学論争が存在する。一定のパターンをで返す、振る舞うことが「理解」なのだという議論。
本当に「理解」できているかどうかを判定できる試験問題ならば、AIは落第するはずだ。問題は、そういう問題がまだできていないことだ。
映画マトリックスは、1と0からなる世界を見せてくれた。AIにとって「見る」とはああいうものなのだろう。我々が普通、「見る」とはおおよそ違う。
今のところ、哲学的議論よりも、功利的な実用上の議論が優勢なようだ。
注目のコメント
日本の医師国家試験を合格したとのことで、たしかに進歩が見られますが、平均的な医学生の正答率を下回るレベルであったこと、安楽死のような場合によっては決して間違えてはいけない問題で誤答を出したことなどからも私たちは学ぶことがありそうです。
すなわち、すでにGPT-4で健康相談のように健康にまつわる簡単な質問をしているケースがあるかもしれませんが、まだそれには未熟な可能性を示唆したとも言えそうです。そのような用途で使用された場合には、面倒ですが(現時点ではまだ逆の結論を導くなどの可能性もあるため)必ず公的機関のウェブサイトなどで裏をとるようにしましょう。ChatGPTは米国の医師国家試験では医学生の平均点程度の成績を取り合格ラインを上回ることがこれまでの研究で示されてきましたが、日本の医師国家試験でも同様の結果が出たと言えます。ポイントは、ChatGPTは医療に特化した学習をしているというわけではないにも関わらず、これだけの結果を出したということです。
「Glass AI」など医療に特化した学習をした生成系AIも登場しており、今後は医師が診断や治療の参考にしたり、患者さんが医師の診察を受ける前に相談したりするようになるかもしれません。現時点で医師国家試験に合格できる性能があるのはスゴイですね。とはいえこれはただの性能評価なので、この性能でもって現実社会のどのような課題にこの技術を応用できるか?を考えるのが人間の知性の見せどころです。