ELYZA、GPT-4を上回る性能の日本語LLMを開発
コメント
注目のコメント
消費者だと玄人でない限り複数AIサービス(&モデル)を使い分けないと思いますが、法人向けAIサービスはまだまだ過渡期で複数モデルを使いたい要望が強いです。現にうちのクライアントは、OpenAIとAzureだけでなく、Claude, Gemini, Llama(Meta)を使っています。
今回ELYZAはLLMを完全自作したというより、Metaの「Llama 3」を用いて追加学習をした新バージョンをお披露目したようです。日本語特化しているなら「使ってみたい」と思う企業は当然出てきます。消費者はもとより、開発者には朗報です。性能検証の「Elyza 100 tasks」で具体的に何をしたのか説明がないのはいかがかと思いました。
「8Bモデルは(中略) 「GPT-3.5 turboを上回る性能」」とありますが、その程度の軽量版だと基本スペックはGPT3.0かそれ以下くらいになります。
自社製のものにだけ「100 tasks 」の質疑応答を事前に直接入力してチューニングしたり、自社製のものの評価が高くなりやすい質問を選んだりしたのかな、などと少し勘繰ってしまいますね…
取り組み自体は有意義なので応援したいのですが、個人的には見せ方に引っかかりを覚えました🙃ついにJapanese MT-BenchでGPT-4を超えたのですね!おめでとうございます。
ここからは日本語特化で業務特化の応用がどこまで開拓できるかが勝負かと思います。専門用語が多く、かつ回答精度が求められる法令や金融、医療分野等でしょうか。あるいは日本語文化に特有の言い回しが効く広告やエンタメかもしれません。
日本語LLMリーダーボードに載る日が待ち遠しいです。