アップルがマルチモーダル大規模言語モデル「Ferret」を公開。画像内の形や場所を言葉で説明

テクノエッジ

2023/10/16

Picks

比屋根一雄
三菱総合研究所執行役員兼研究理事生成AIラボセンター長
・2023年10月16日
大規模画像言語モデルは他にもありますが、Appleが発表したのはニュースですね。

正確な画像内位置参照は、いかにもVision Proに搭載されそうな技術です。
福島裕介
藤沢湘南台病院循環器内科部長
・2023年10月16日
GAFAM 全て（出資含む）がLLMを公開し、2023年はAI戦国時代の幕開けとなりそうですね。
このままGAFAM 中心に進むのか、それとも新興企業が大きくなるのか、企業動勢も気になるところ。
淺間康太郎
富士通株式会社 Japan Change Leader / GenerativeAI Advocate / DX Officer補佐
・2023年10月16日
ついにAppleから大規模言語モデルについての情報が来ましたね。
これまでAppleはAIないしLLMといった言葉を伏せてきた印象でしたが、やはり内部では開発が進んでいたということでしょうか。（ChatGPT/GPT-4の技術を活用し...と書かれていますね）

Ferret、MLLM（マルチモーダル大規模言語モデル）ですが、ボックスシルエットではなく、形状をフィットさせて認識することが出来るようです。

BartにGPT-4やLLaVAなど、MLLMが多く登場したここ数か月でしたが、今後も更なる発展が期待できそうです。

.css-5ddv2h{font-feature-settings:'palt';letter-spacing:0.06em;}アップルがマルチモーダル大規模言語モデル「Ferret」を公開。画像内の形や場所を言葉で説明