家電と対話する未来：注目される小規模モデル

ChatGPTやBardのような大規模言語モデル（Large Language Model, LLM）は、学習パラメーター数が大く、学習データ量が多いほど、モデルの性能が向上することが知られています。

GPT-3とGPT-4の違いを実感している人なら、大きなモデルほど良いというのは直感的に理解できるのではないでしょうか。

モデルの規模が大きいほど性能が上がる理由

GPT-3は、1,750億のパラメーターで学習され、GPT-4は正式なパラメーター数は非公開ですが、一説では1兆7,600億個以上ののパラメータで学習されたと推定されています。でも、なぜ、より多いパラメーター、より大規模なデータほど性能が良くなるのでしょうか？

それは、大規模言語モデルの学習の仕方に関係しています。モデルは、与えられた文章に対して、次の単語を予測するように学習していきます。たとえば、「明日は_ _に行く」という文章が与えられた場合、「明日は仕事に行く」といった文章を予測できると良いということになります。そして次に来る単語をより正確に予測できるように自分自身でモデルを調整しながら学習していきます。ジグソーパズルを組み立てるような感じを思い浮かべげいただけるといいかもしれません。各ピース（単語）がどの位置（文脈）にベストマッチするかを見つける作業です。

次に、大量の学習データが必要な理由ですが、これは単語やフレーズがどのように関連しているかを理解するためです。たとえば、「犬」という単語を見た時、それが動物であること、歩くことができること、吠えることができること、人間のペットとして飼われていることがあることなど、あらゆる関連情報を学習する必要があります。さらに、それらの情報を他の単語や文脈と関連付けることで、犬が公園で遊ぶ様子や、犬がリードにつながれている理由など、より具体的な状況を理解する能力が向上します。

モデルのサイズが大きくなり、パラメーターの数が大きくなると、より多くの情報を学習する能力があり、それによってより高度な予測が可能になります。大きなモデルになると、複雑な文脈に対するパターンを学習して、細かい意味のニュアンスについても予測する能力が向上するのです。

たとえば、「犬がボールを追いかける」や「犬がボールーを追いかけて喜んでいる」という文章について考えてみましょう。この表現をAIが理解するには、「犬」と「ボール」が何であるかを知るだけでなく、「追いかける」という行為が具体的に何を意味するのか、そして犬がなぜボールを追いかけるのかという文脈を捉えることが必要です。さらに、「犬がボールを追いかけて喜んでいる」という表現になると、「喜ぶ」という犬の感情を理解し、それが何を意味するのかも理解する必要があります。大きなモデルであるほど、このような複雑な表現の関係性を捉える能力や、予測能力がより高いのです。

Image Credit：iStock alexei_tm

大規模言語モデルを扱うときの課題

しかし、ChatGPTのような大規模言語モデルを一から学習させるのは、まるで高層ビルを作るような作業です。そのために必要な計算リソースと時間は膨大で、GPT-3のようなモデルをゼロから構築するための費用は、約500万ドルと推定されています。GPT-4はGPT-3と比べた約6倍の大きさになるので、その費用はさらに増加します。運用コストも考慮すると、これに取り組むことができるのはOpenAIやMicrosoft、Meta、Googleのような巨大IT企業だけとなってしまいます。

日本でも、こうした大規模言語モデルの開発をするためのインフラを国が支援すべきだという提言が出ていますが、その背景には一つの企業だけでこれらの開発をするのが困難だからです。

生成AI開発「GAFAMとの競争、政府が支援を」松尾豊氏 (日本経済新聞)

NewsPicks でコメントを読む

newspicks.com

一方で、性能が高い大規模言語モデルを使いたいというニーズは非常に高いです。そのためのソリューションとしてOpenAIやMicrosoftが提供するAPIを使って開発をするという選択肢が現実的な手段となってしまいます。ですが、APIを使って大規模な開発を行おうとすると、スケーリングが困難です。APIのレスポンスが遅い、または混雑していて処理が行われない場合も多くあります。さらに、APIを使う場合は、データがサーバーに送られるため、機密データを扱うことはできません。

小規模言語モデルへのシフト

そこで、GPT-3やGPT-4のような大規模言語モデルに代わって、最近注目されているのが、「小規模な言語モデル」です。手元のコンピュータでも動くようなサイズの小さな言語モデルがあれば、スケーリングや機密データを別の会社に提供するということなく、扱えるようになります。

でも、なぜモデルが大規模化してきたのかといえば、それがなければ性能が出ずに使い物にならなかったからです。しかし、研究が進むことで、小規模ながら大規模言語モデル並みの性能を発揮するモデルが登場し始めています。

たとえば、Microsoftは、GPT-3の100分の1以下の規模（13億パラメーター）ながら、GPT3を上回る性能のモデル（phi-1)を発表しました。これはプログラムのコードを生成するという用途に特化したモデルで、教科書レベルの非常に高品質なデータを使って学習させることで、性能向上に成功したと報告しています。

また、MITはさらに小さいGPT-3の500分の1の規模（3億5000万パラメータ）のモデルを提案し、感情分析や質問応答、ニュース分類といった一部のタスクにおいては、GPT-3のような大規模モデルの性能を上回ることができると報告しています。ここでも、より質の良いデータを使った学習が性能向上のための鍵となっているようです。

このように、特に用途を限る場合は、大きなモデルは必要なく、小さなモデルでも十分に機能する物が作れることが示されています。

Image Credit：iStock masato df

小規模なモデルでも開発を行うメリットはさまざまです。その一つは，スケーラビリティです。APIに依存していると、APIへのレスポンスを待つ必要があり、それがボトルネックになります。また、機密データを扱うことができないという問題もあります。自前のコンピューターでモデルを走らせることができれば、これらの問題が解消されます。さらに、インターネットに接続せずにモデルを実行できることは、セキリティの観点からも大きなメリットです。

スタートアップ企業が飛躍するチャンス到来

小規模なモデルを搭載したエッジコンピューターが普及すれば、たとえば、あらゆる電化製品が自然言語で操作できる世界が到来します。現在でも、多くの家電には音声アシスタントが搭載されていて、音声で操作できます。けれど、これが一歩進んで、家電が自分で考え、あらゆる状況に対応した高度な対話を行うとしたどうでしょう。

洗濯物を洗濯機に入れると、「どのように洗いますか？」と洗濯機が問いかけます。「いつも通り、普通に洗って」と答えれば、洗濯機は洗濯物の色や素材を自動的に識別。「真っ赤なTシャツと真っ白なシャツが混ざっています。色移りが心配ですが、このまま洗いますか？」と確認します。まるで洗濯のプロがあなたの側にいるかのようです。

さらに、家電同士がネットワークで接続されると、一連の作業を連携して行うことも可能になります。たとえば、「部屋の空気を換気して」という要求に対して、エアコンは自動的に停止し、窓やドアが自動的に開き、換気が終わったら再び閉じてエアコンが作動する。このような一連の動作が、単に一つ一つの家電が事前に設定されたコマンドに従うのではなく、タスクを完了するために必要な連携を自動的に判断することで実現します。

このように、大規模言語モデルを活用することで、家電が自己判断と自己調整を行い、よりパーソナライズされた体験と効率的な生活の支援を提供することが可能になります。これは、単に家電が「スマート」になるだけでなく、家全体が一つの「インテリジェントシステム」に進化する、スマートホームの未来のビジョンです。

大規模言語モデルを使った開発に注目が集まる中、性能の高い小規模言語モデルが登場することで、APIに頼らずに独自のエンジンを開発できます。これは、競争力を強めるスタートアップ企業や中小企業が飛躍するチャンスが来ているかもしれません。