ChatGPTはショーンK - もっともらしく話せるのは知性なのか？

こんにちは。先週体験した様子を書いたChatGPTは引き続きテック業界の最大の話題の一つとなっています。体験してみたインパクトは大きく、AGI（汎用人工知能）やシンギュラリティの到来だとまで感じる人もたくさん見かけます。ChatGPTは、何について聞いても知っているように感じます。が一方で、内容は一般論的で浅く感じます。またとんでもなくトンチンカンなことも答えます。そして、まるで人間が答えているような応答をします。ただ、しばらく使っているとその回答は型にはまっているようにも感じます。

本記事では、技術的な内容を解説しながら、ChatGPTがどのようにして実現されているのか、本当にどのような可能性や限界があるのか、見ていきたいと思います。普段以上に技術的な内容になりますが、ご興味のある方は読んでいただけるとChatGPTや最先端の自然言語AIについての理解を深めていただけるかと思います。

ChatGPTの仕組み：知識と答え方の組みわせ

ChatGPTは、どのようにして入力した文章に応答するのでしょうか。ChatGPTの基盤になっているのは、OpenAIが開発しているGPT-3という大規模な言語モデルです。GPT-3は、大規模なテキストデータによってトレーニングされたディープニューラルネットワークです。GPTは、”Generative Pre-trained Transformer”の略です。まず、”Generative”は、入力された文字列に対して後に続く（確率が高いと思われる）文字列を生成することを指しています。

次に、”Pre-trained”ですが、これがGPTの大きな特徴です。様々な自然言語処理のアプリを作る上で、まず基盤となるモデル（現在の基盤モデル／Foundation modelの概念の基礎）を、人間がラベリングや構造化した教師データなしでトレーニングするというアプローチです。その上で、アプリの種類（たとえばGPTの論文では質問応答や文書の分類などが挙げられてます）に応じて、教師データを与えてファインチューニングします。

なぜこのような組み合わせを行うのでしょうか。多様な知識にもっともらしく答えるためには、大量のデータに基づいている方が有利です。また、質問に答えるといった構造を持った回答をするためには、知識そのものだけではなく上手い答え方などをできるパターンを知っている必要があります。たとえば話の上手い人は、内容が真面目な社会問題でも下ネタでも上手かったりしますよね。そのためには、質問と応答のペアを作るなどの教師データが必要になります。そして、あらゆるパターンに対応する教師データを作ろうと思うと、莫大なコストがかかってしまいます。GPTの特徴は、教師なしで行なった大規模な知識の構造化と、教師ありで質問の答え方などのパターンの両方をモデルに持たせることができるので、コストが爆発せずに、多様な分野の知識について用いることができます。そして、ChatGPTのようにチャットボットとしての応答なども、教師ありでファインチューンすることで実現しています。

参考：

Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (June 11, 2018). "Improving Language Understanding by Generative Pre-Training" . p. 12. Retrieved July 31, 2020.

Transformer：Attentionによって文章全体の文脈を俯瞰し、効率的なトレーニング処理を可能にする

GPT以前にも、Pre-trainedのアプローチをとった言語モデルはあったようです。ここで、”Transformer”を採用したことがGPTの大きな特徴となります。Transformerは2017年にGoogleのチームが発表したディープニューラルネットの設計です。Transformerall以前に自然言語処理に用いられているディープニューラルネットは、長い文章を逐次的に処理するため、1）文書の最後の状態に引っ張られ、前の方の文脈をうまく活用できない、2）トレーニング処理の並列化ができない（順番に処理を行うので）ので大量のデータでモデルを作るのに時間がかかる、といった問題がありました。Transformerは、文章を順番に処理するのではなく、文章に登場する単語どうしの関連度を計算するという仕組みによって、文章のどこにある情報も等価に扱います（最後の情報に引っ張られない）。この仕組みをAttention（注目）といいます。TransformerはこのAttentionだけを扱うシンプルな作りになっています。Transformerのトレーニングが逐次処理ではないので並列化ができ、より大規模なトレーニングが可能になりました。

参考：

A. Vaswani et al. Attention is all you need. In NeurIPS, 2017.

ChatGPTの知性はどれくらいのものか

ChatGPTは、このような仕組みによって、あらゆる事柄について、もっともらしい答えを返せるようになりました。これはAGIへつながる一歩となる大変大きな成果です。ChatGPTは、幅広い事柄についての、言葉と言葉の関連（TransformerのAttention）を構造化して持っています。このことから、偏りもないぶん、一般的で浅く感じる回答が出てきます。そして、質問の仕方のパターンに対して、答え方のパターンを持っており、構造化された知識を答え方に当てはめて答えています。結果的に、回答の仕方が型にはまっているように感じます。（この説明自体、ChatGPT的に相当はしょった説明ですが、イメージを持っていただくために。）

ショーンKこと川上伸一郎氏という、ラジオパーソナリティだった人がいます。J-Waveのビジネス番組で、経営コンサルティングとプライベートエクイティの事業を行っているという触れ込みで、トレンドのトピックに対するわかりやすい解説や事業家へのインタビューなどに定評があり、地上波のニュース番組のキャスターに決まっていました。ところが、ハーバードMBAといった経歴は詐称であることがばれ、事業も実態は乏しかったようで、今はメディア活動は自粛しています。

彼のラジオ番組は非常にわかりやすく面白く、今でももったいなかったなと思っています。パーソナリティやコメンテーターとしてはとても優れた人でした。一方で、それらの能力は、実際の学問や事業の中身とは全然関係なかったわけです。話題のトピックについてちょっと知識をかじって、トークがうまければ、特に専門家でもないのに非常に知的に見せることは可能なわけです。

ChatGPTはショーンKによく似ています。

ChatGPTの応答が頭でっかちなコンサルに似ているのには理由があります。それは得られる情報からの一般論をわかりやすく整理するという方法論が同じだからです。

人間の専門家にできてChatGPTにできないのは、知識の平均値の一般論や、型にはまった応答でない、新しくユニークな意味を世界に見出すことです。そのためにショーンKにもChatGPTにも足りないのは、記号化されていない現実の一次情報に触れることだと思います。

知性はままならない現実によって進化する

人間が新しい意味を世界に見出す瞬間は、既存の理論や体系では説明できない現実を突きつけられた時でした。たとえばガリレオが地動説を確信するのは性能が向上した望遠鏡を使った観測によるものでした。あるいはアインシュタインの一般相対性理論が受け入れられた一つの理由は、ニュートン力学では水星の軌道がうまく説明できないことでした。トーマス・クーンは、「科学革命の構造」で、パラダイムシフトと呼んで体系化しました。

また、専門家は、現実の経験から、何に注目して何を無視するかという注目の構造が、最適化されます。たとえば天ぷら職人が油の音で温度を認識するようなことですね。

というわけで、ChatGPTの次の段階の進化としては、基盤モデルに対して、現実の中で行動し、一次情報のインプットと照らし合わせて、何に注目すべきか常に自己修正を行うようなことができると、今の限界を超え、AGIに近づくさらなる知的なAIができるのではないかと思います。