生成AIに“視覚”与える学習ライブラリ、自動運転EVベンチャー公開 最大700億パラメータの学習済みモデルも
コメント
選択しているユーザー
千葉県柏市に拠点を置くTuring株式会社が、マルチモーダルな学習ライブラリ「Heron」を公開しました。このライブラリは、日本語を含む複数の言語に対応しており、最大700億パラメータの学習済みモデルも提供されています。Heronは、大規模言語モデル(LLM)と画像認識モデルを組み合わせ、画像を入力としても扱えるように設計されています。この技術は、完全自動運転技術の開発にも活用される予定です。
Turing株式会社のこの新しいリリースは、日本としても非常にポジティブな動きです。
日本がAIと自動運転技術の分野で遅れを取っていると言われる中、千葉県柏市の企業が世界に先駆けてマルチモーダルな学習ライブラリを公開するというのは、国内産業にとって大きな一歩です。
Heronは、大規模言語モデル(LLM)と画像認識モデルを統合し、多言語対応を果たしています。これは、例えば、自動運転車が道路上の標識や人々の表情を理解しながら、適切な運転判断を下すために非常に有用です。
マルチモーダルとは、複数の入力ソース(例:テキスト、画像)を統合して処理することを指します。LLM(Large Language Model)は、大量のテキストデータを学習して、人間のような応答を生成するAIモデルです。
LLMの分野での遅れはあるものの、Turing株式会社のような企業が各セグメントで日本の特徴を活かせば、これからが楽しみです。
このような最新の技術動向を知ることは、ビジネスにおいても非常に有用です。是非、チェックしてみてください。
注目のコメント
大規模言語モデル(LLM) の登場により、視覚言語モデル(VLM: Visual Language Model)も進化してます。
自動運転におけるセンシング技術として、レーダーに加えて視覚情報も加わると強い。自動運転というミッションを実現するために、視覚言語モデルという副産物が生まれれば、他の産業への影響も大きそうです。TuringはAWSのLLM開発支援プログラムにも採択されていたので、これからよりLLMの開発が加速しそうです。
プレスリリース:https://prtimes.jp/main/html/rd/p/000000034.000098132.html
AWSのLLM開発支援、採択企業が明らかに サイバーエージェント、マネフォ、PFN、rinna、リコーなど
https://newspicks.com/news/8864139当然の流れが来ました。
文字や絵だけではなく、視覚&聴覚のモデル化・・・感覚のモデルをそれぞれ身につけることでより人の代わりに対応ができる存在となります。
また、複合的なAIがつながることで複数の条件をもとにしたAIの判断も可能になるでしょう。
専門に特化したモデルなども合わせることで職人や専門家などの領域にも入り込んでくるのではないでしょうか。