「人間らしい対話」だけでない大規模言語モデルの可能性

(Image Ank Kumar CC-BY-SA 4.0)

こんにちは。今週は生成AIにとって大きな週になりました。火曜日にはGPT-4が発表、即座にChatGPTから利用可能になりました。同じ日にGoogleも大規模言語モデルのPaLMのAPIを公開、GmailやDocsなどのアプリケーションへの生成AIの搭載も発表しました。水曜日には画像生成AIのMidJourneyの新バージョン、木曜日にはMicrosfot 365のCopilot機能の発表がありました。

中でもわかりやすくインパクトのあったのはMicsorosft 365 Copilotの発表でしょう。

AutopilotからCopilotのAIへ

本トピックでも先月の記事で、bingへのチャット機能の搭載にあたって、Copilot（副操縦士）という概念が強調されていることを指摘しました。その中でもWordやPowerPointへの大規模言語モデルの搭載も時間の問題だと書きました。発表された内容は概ね予測した通りのものです。子供の卒業祝いのスライドをチャットで作成したり、ビジネスメールの返信を書かせたり。企業内の過去のデータなどをコンテンツ生成に活用できるところも予想通りでした。

MicrosoftのナデラCEOは、冒頭で知的作業のためのコンピューターというアイデアの歴史を紹介しながら、今回の発表について、人間の側が主導権を持ちながら、AIと言語を通して対話し、共同で作業を達成するというコンセプトを「Autopilot（のAI）からCopilotへ」という言葉で説明しました。

メールを書くといったところまでは、ChaGPTなどの機能を考えれば容易に想像されたところです、一方で、Powerpointのスライドなどになると、それほど話は簡単ではありません。なぜ大規模言語モデルが、言語でないコンテンツの生成にも利用できるのでしょうか。それは、PowerPointのスライドなども、中身はコンピューターが理解できる記号列の言語として表現されているからです。

ChatGPTでドローンやロボットを制御する

それを理解する一つの補助線が、Microsoft Researchが先月発表した、ChatGPTの別の応用例です。それは、ドローンやロボットの制御を、ChatGPTを通して自然言語で制御できるようにするというものです。

この研究のポイントは、ドローンなどを制御するコード、それもただの位置などの指定だけではなく、与えられた矩形の範囲をくまなく飛行する、といったアルゴリズムのコードをChatGPTに生成させることです。

https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/

コンピューターは通常プログラムコードで制御されています。人間が書きやすい形式のプログラムコードは、実行用ファイルの生成時（コンパイル）、あるいは実行時に、コンピューターが理解できる言語（機械語）に変換されて実行されます。

これが意味するところは、十分なデータによるトレーニングさえなされていれば、ChatGPTのような対話型AIは、原理的にはコンピューターにあらゆることをさせられるユニバーサルプログラミング言語になれる。それもC言語やBASICといった人工言語でなく、自然言語でコンピューターをプログラミングしてあらゆることをさせられることができるということです！

Copilotの源流 - GitHub Copilot

今のCopilotという概念はどこから出てきたのでしょうか。それは、2018年の、MicrosoftによるGitHubの買収に遡ります。2021年には、GitHubは、OpenAIのGPT-3を用いて、コードの続きをGPT-3が自動補完するGitHub Copilotを発表しました。2022年にはすでに、GitHubに置かれたコードの27％がCopilotを用いたものになったと発表されています。

コンピューターを制御するプログラムが出力できれば、そこから先はコンピューターでできるあらゆることのCopilotを作ることができます。これがbingやMicrosoft 365 Copilotのアイデアの基になったことは想像に難くありません。

チューリングが生み出した、あらゆる計算のできる機械

20世紀の数学者アラン・チューリングは、人工知能のアイデアと人工知能が人間並になったかどうかを判別するテスト（チューリング・テスト）に名前を残しています。Googleの自動電話予約システムや対話型AIは、すでに会話の相手に人間と誤認させるという意味ではチューリング・テストを通る水準になっています。ChatGPTを使っていても、中に人間が入っていると言われれば信じてしまう人はいるでしょう。

アラン・チューリング Ank Kumar CC-BY-SA 4.0

チューリングのより大きな業績は、現代のコンピューターの原理（チューリング・マシン）を示したことにあります。

チューリング・マシンは、かいつまんでいうと、自分自身を書き換える手順を書いたテープです。これは現代のコンピューターのメモリーに相当します。チューリング・マシンは、テープの内容を読み取って、テープに書かれた手順に従ってテープの内容を書き換えます。これは、コンピューターのアプリケーションが、処理を行うことに相当します。結果はメモリーの内容の変更として出力されます。チューリングは、このような機械が、十分な計算のステップを踏めば、あらゆる計算処理が可能であると示しました。その計算の結果は、ディスプレイやプリンターなどの外部の装置に送って出力することもできます。

このテープの内容は、現代のコンピューターも含めて通常一次元の記号の配列で表現します。

ここまで見て来たように、大規模言語モデルの可能性は、「人間らしい対話の実現」にとどまるものではありません。大規模言語モデルの大きな可能性は、より一般的に「自然言語によって機械に対応した出力をさせることができる」ことにあります。

そういう意味では、今起こっているのは、初めて画像で直感的に機械と対話することができるようになったグラフィカル・ユーザー・インターフェース（GUI）の登場と同じくらいの大きな変化なのだと言えます。