日本語能力の高い生成AIの基盤技術、スパコン「富岳」で開発へ…東工大・富士通などのチーム
コメント
選択しているユーザー
おかしなことが起こり始めていると感じています。
富岳(国産機):東京工業大や富士通などのチームで日本語生成AIで生き残り
量子機(IBM機):理化学研究所、東大が中心にIBM2号機の導入準備
量子機(国産機):理化学研究所、富士通 IBM機の陰に隠れる
G7では、半導体や先端技術の日米協力が議題として上がり、MITなどが日本に研究施設を創ることが決定。先端半導体RapidusはIBMの支援を受けて、日本企業連合で開発開始。背景には中国の科学技術伸張の脅威や産業界が失われた30年で相当に技術開発で弱っているという背景があるのでしょう。
しかし、国産技術で量子などは非常にユニーク(NECが世界に先駆けた超低温による量子技術など)なものがあるのに、なんだか全てが米国との共同になってしまって、これでは国産が立つ瀬がない。挙げ句の果てに大型機でなんとか日本語の生成AIなら米国と進めているプロジェクトの邪魔に並んだろうという、なんだか随分遠慮した開発なんだなあという感じがします。加えて、スパコンで自然言語処理系のNNを利用した、アルゴリズム開発が完成したときに、きちんと産業界に還元できるのだろうか。読めば読むほど、日本の科学技術開発はモヤモヤしたものだと感じます。がんばれ日本の科学技術者、逆風だけど頑張りましょう。#生成AI #スパコン #富岳 #量子 #IBM
注目のコメント
日本語のLLM、海外でもそれなりにいいのあるんですよね。海外ユニコーンであるHugging Faceには日本語に関するLLMと機械学習モデルがあり、うちは日本語では一部使っています。それなりに精度高いです。
なお、先日Metaが出したLLMが誤ってオープンソース化されて、それをベースに非常に優良な派生モデルが一斉に作られました。今はLLMは自分で持てて作成できるので、仮に東工大と富士通がLLMをリリースした時、それらと勝てるかつコストを回収できるのかはビジネス上で検討すべきです
なので国産LLMには少し懐疑的ですが、提供者が増えてくれる分には開発者としては嬉しいです大学が中心となってLLMを開発していただけるのは非常にありがたいです。
富岳がAI学習に使えるとは知りませんでした。LLMの事前学習は計算量勝負なので、スパコンが使えるならよいですね。
むしろ課題は日本語データセット。東北大学が担当するようですが、多様な文書を大量に集めるには政府の関与も必要だろうと思います。データセットの整備にも期待したいです。
富士通のリリース:
https://pr.fujitsu.com/jp/news/2023/05/22.html
【追記】
今日発表されたスパコンランキングTop500で、AI計算の「HPL-MxP」でも3位とのこと。期待しましょう。富岳はGPUが無いと思うので、大量のCPUで学習を行うということかと思われますが、どの程度のパフォーマンスが出るのか興味深いです。日本語能力の高いLLMの学習には計算リソースも重要ですが、質の高いデータが重要で、ぜひこの活動を通じて日本語LLM開発に有益なデータを公開してほしい。