【舞台裏】サイバーが「大規模言語モデル」を生み出した必然

中川雅博

NewsPicks 編集部記者

世界のテック企業がしのぎを削る「生成AI」の戦場に、サイバーエージェントも殴り込みをかける。

5月上旬、サイバーは生成AIの基盤となる日本語の大規模言語モデル（LLM）を独自開発したと発表。その翌週には一般公開に踏み切った。

ネット広告代理事業を主力とするサイバーは、大量のデータを扱う広告配信でAIの活用を進めてきた。全社員のうちエンジニアの比率も4割を超える。

1年半以上をかけたというLLMの開発は、ChatGPTが世界を席巻するよりかなり前から始まっていた。

なぜ自社でLLMを開発するに至ったのか。自らどう使いこなしていくのか。

サイバーの中で開発を担ったAI事業本部AIクリエイティブ部門で責任者を務める毛利真崇氏と、機械学習エンジニアの石上亮介氏に話を聞いた。

INDEX

LLMが必要だった根本理由
少量の追加学習でカスタマイズ
OpenAIの論文が契機に
「AIコピーライター」の実力
モデルの大規模化を阻む課題
富岳のプロジェクトにも協力

【核心】グーグルCEOが語った「生成AI」の商機と危うさ

NewsPicks編集部

【全貌】エヌビディアの領域に挑むソニーが選んだパートナー

NewsPicks編集部

プレミアム会員限定の記事です
今すぐ無料トライアルで続きを読もう。

オリジナル記事 7,500本以上が読み放題
オリジナル動画 350本以上が見放題
The Wall Street Journal 日本版が読み放題
JobPicks すべての職業経験談が読み放題

今すぐ無料トライアル

学生の方はこちら

法人プランはこちら

注目のコメント

佐々木励
AI企業旅する魔法使い
・2023年05月26日
学習データが肝なので、その視点で要約してみます。

1. 大規模言語モデル(LLM)
・一般公開した68億パラメータのモデルは、Wikipedia とCommon Crawl (自動収集可能なウェブサイトの公開データ)を学習
・社内限定の130億パラメータのモデルは、広告などの自社データも学習
・日本語の言語データは英語に比べて、公開されているものが少なく、国に期待している
→日本語の公開データでは、68億パラーメーターが限界なのかも

2. 追加学習 (ファインチューニング)
LINEやFacebookなど媒体ごと、金融や美容などの業界ごとに、広告効果の高い（クリックされやすい）コピーを学習
→これが広告に特化したモデルの強み
和田崇
㍿Laboro.AI 執行役員／マーケティング部長
・2023年05月26日
和製LLM（大規模言語モデル）が、GPT-4などの海外LLMと比べてどうオリジナリティを出すべきかが気になっていましたが、この記事を通して、その筋が見えてきたような気がします。

あくまで私の解釈ですが、サイバーさんのモデルは、日本語生成の点において海外モデルに対抗することを目的としたものではなく、広告コピー生成というニッチ領域で日本人に最適化した「ドメイン特化モデル」であることに気付きます。

マーケティング観点では、「広告コピー」と一言で言っても、やはりターゲットに好まれる文言や、媒体・チャネルごとによく使われる表現、他のコンテンツとの競合性など、多くの要素を加味した上で作成する必要があります。

サイバーさんのLLMは、単なる汎用的な「生成AI」という枠を越えて、適した学習データを用いることでマーケティング機能を持たせ、「生成AIによる最適化」にまで踏み込んでいる点に価値が見出されます。

こう見ると、やはり産業特化・地域特化・ビジネスドメイン特化など、ニッチな部分に特有のデータを収集・学習させ、汎用的なLLMでは出力できないような解を出力させる点に、残念ながら世界的には開発に出遅れてしまった和製LLMの勝ち筋があるのだと思います。

一方、記事内で石上さんも触れておられますが、こうした産業データ・ビジネスデータの収集を、いかに国が主体となって進めるかが大きな課題です。一企業で集められるデータ量には限界があり、利害も絡んでくるため、政府やアカデミアが主となって、共通データ基盤を作るような動きが、いま求められていると強く感じます。
松村優也
株式会社LayerX ML Team Manager
・2023年05月27日
広告コピー生成というタスクは多様な業界や媒体ごとに的したクリエイティブを作成する必要があるが、それぞれで十分な生成モデルを学習させるだけの大量のデータを収集することは大変困難である。

そこで、特定のドメインに限定しない大量のデータを学習させることで一般的な知識を獲得させた基盤モデルを生成し、タスクごとには比較的少量のデータを追加することでよりその業界や媒体に適したコピーを生成することを可能にする。

大規模言語モデルの作成モチベーションが事業に直結しており、実際に運用もされている素敵な事例だと思いました。