サイバーエージェント、国内最大級の日本語LLMを公開
コメント
注目のコメント
マーケティングバズかな。CAさんの使ってる GPT-NeoX モデルは古いので、どれだけファインチューニングしても ChatGPTみたいなパフォーマンスは出せないかと、、。
GPT-NeoX を選んだ理由は、
・モデルが、元々日本語対応したものがある
・Apache 2.0 だから商用利用できる
が大きそう。
GPT-NeoX は、200億でも LLaMAの70億 (Facebookのやつ) よりパフォーマンス悪いようなので、GPT-NeoX の70億以下って、何がどこまでできるんだろう?と疑問に思ったりします。
でも大企業なのに、比較的早くモノを作られて世に出された点は、すごいと思います。
(あとCAさんが、LLMを作ったわけではなく、既存のLLMをファインチューニングしたものを公開したという認識でいます。(これが一般的な使い方。))
ーー
参照:
https://github.com/EleutherAI/gpt-neox/blob/main/LICENSE
https://www.lunasec.io/docs/blog/cerebras-gpt-vs-llama-ai-model-comparison/サイバーエージェントのモデルもrinnaのモデルも同時にリリースされ、いよいよ競争が始まった感じがしますね。
どちらのモデルもベースの基盤モデルとしてGPT-NeoXを使っています。GPT-NeoXはGPT系のオープンソースモデルで、そのままでもある程度日本語を理解します。
いずれのモデルも完全にゼロから学習したということではなく、基盤モデルを「ファインチューニング」しているのではと思われます(情報求む)。基盤となるモデルをさらに賢くするための追加学習手法はここ数ヶ月で劇的に進化しており、多数のパラメーターをいじらななくても効果的に経済的にモデルの品質を高めることができます。
サイバーエージェントのようなエンジニア集団の企業でなくとも、このようなファインチューニングは既にかなり簡単に行うことができます。特に、今回モデルが公開されたHuggingFaceはこれらのモデルをベースにした追加開発を簡単にするフレームワークを提供していますし、弊社のWandbを有効化することで、開発の可視化も簡単に行えます。
今回公開されたモデルはそのようなさらなる追加学習のベースとして使われることを想定したものと思われますが、今後これらのモデルから派生して特定のタスクやナレッジに特化したモデルが出てくることに期待したいと思います。日本語LLMのオープン化への大きな一歩ですね。
自社内では130億パラメータまで開発しており、その約半分の68億パラメータまでを公開したようです。
日本語に特化したことでモデルが軽量になり、資金が少ない組織でもカスタマイズ出来て、さまざまな中規模モデルが生まれる可能性があります。またパラメータの少なくても、領域を特化することで、充分な精度を実現できるかもしれません。
ちなみにGPTと比べると、GPT-2とGPT-3の間です
GPT-2:15億
GPT-3:1750億
ChatGPT(GPT-3.5):3500億(という噂)
GPT-4:100兆(という噂)
(参考)
サイバーエージェント、最大68億パラメータの日本語LLM(大規模言語モデル)を一般公開
https://www.cyberagent.co.jp/news/detail/id=28817
サイバーエージェント、独自の日本語LLM(大規模言語モデル)を開発
https://www.cyberagent.co.jp/news/detail/id=28797