オープンソース、ChatGPTに迫る 参加者膨らみ開発加速
コメント
注目のコメント
大規模言語モデルなどいわゆる基盤モデルと呼ばれているものはできるだけオープンな形で開発が進められるといいなと思います。
大規模言語モデルは今後の私たちの生活を支えるような、文字通り基盤・インフラとなっていくことが考えられます。安心して使えるようにできるだけ透明性のある形で、かつ特定の人間の利益に偏らない形で開発が進められるべきだと思います。そして、インフラだからこそ開発者たちの集合知をもって少しでも良いものにしていくべきでしょう。
その上で各企業は自社のプロダクト・ドメインに適した形で大規模言語モデルを活用する点で競合優位性を出していくことになるかと思います。オープンソースの大規模言語モデルが注目される理由は、軽量化と多言語とみています。
超大規模のGPT-4の性能は圧倒的ですが、GPT-3クラスの性能を数分の1のパラメータで実現する事例が出てきました。AIチップの性能が上がり、GAFAMでなくとも手軽に学習できるということです。
以前は言語ごとに言語モデルを作ってました。充実した英語データセットなら性能が出ますが、日本語だと実用レベルに達しない。ずっと悲しい想いをしてきました。それが多言語で一気に学習すると、英語以外の性能も上がることが分かったのです。おかげでGPTの日本語能力は驚くべき性能です。
ここまで来れば、用途別の小さな専門データセットでファインチューニングすれば、実用レベルになる可能性が出てきました。つまり日本語でも予算と性能に手が届きつつあるということですね。7Bモデル辺りになってくると、メモリ16GBのGPUに乗らなくなるので、これからは量子化や蒸留組が台頭してきそう。
また、Lolaのような学習方法関連の研究も進んできそう。
あとは性能もさることながら、商用利用可能なモデルも増えてきてるので、この辺りオープンソースの開発が進みそう。