ELYZA、新たな日本語言語モデルを一般公開 同社「日本語ならGPT-3.5を上回る性能」 商用利用も可
コメント
注目のコメント
日本語性能で「GPT-3.5(text-davinci-003)」を上回るのが素晴らしいですね。GPT-3.5は、初期のChatGPT (GPT-3.5-Turbo)の前身です。
また、高速化の取り組みもされたようです。日本語ならではの知見が溜まってきました。
==
トークナイザーを更に効率化するために、いくつかの改良を加えています。
まず中国語の文字とローマ字のトークンを排除し、日本語の語彙のみを追加しました。同時に、文章をより少ないトークン数で表現するために、頻度が低い単一文字トークンよりも、より長い文字列のトークンを優先して追加しました。一方で、日常的にはあまり用いられないものの、トレーニングデータセット内で頻繁に使われる表現が単一のトークンとして登録されていることが、データ分析により明らかになりました。これを受けて、追加トークンには文字数の制限を設けることとしました。
これらの改善により、前回(13,042個)よりも少ない12,581個の日本語の語彙追加で、同じ日本語の文章を表すのに必要なトークン数を、元の「Llama 2」の47%まで削減することができました(前回は55%)。推論速度に換算すると、約2.27倍となっています。
https://note.com/elyza/n/n5d42686b60b7ELIZA ではなく、ELYZA
ELIZA
https://ja.wikipedia.org/wiki/ELIZAモデルの詳細は以下記事に記載されています。
https://note.com/elyza/n/n5d42686b60b7