Meta、画像内アイテム識別のAIモデル「SAM」と大規模データセットを無償公開
コメント
注目のコメント
ChatGPTに続き、大規模AIモデルがまたも登場してきました。ChatGPTが自然言語処理の汎用的な基盤AIモデルとすれば、このSAMは画像認識の基盤AIモデルと言えるかも知れません。
セグメンテーションとは、画像切り出しのようなもので、画素の境界線に沿って対象物を捕える技術です。バウンディングボックスと呼ばれる四角い領域で捕える、なんとなーくの画像認識とはその精密さに大きな差があります。
セグメンテーション自体は以前からもある技術ですが、SAMの特徴は、Segment Anything(何でも切り出す)の名の通り、通常は必要とされる学習を不要として、あらゆる物を切り出せるとする点です。
またプロンプダブル・セグメンテーションの可能性も示唆されている点がさらなる特徴です。ChatGPTでもお馴染みになったプロンプト、つまりテキストベースで画像の切り出しや・加工・編集ができる仕組みを持っているということです。
これらを踏まえてみると、現時点では商用利用は不可ですが、将来的に例えばスマホで撮った自撮り画像に対して「眼をもっと大きくして」とか「鼻をもっと高くして」のような、チャットベースの画像加工ができるかも!?のような想像も膨らみます(←これはかなり妄想です)
いずれにしても資本力のある大手IT企業による、大規模AIモデル、ファウンデーションモデルの発表ラッシュになってきた様相です。
なおSAMについて、現時点ではこちらの解説が簡易的でわかりやすいと思います。
https://aiboom.net/archives/51716モデルとデータセットの公開で、世界中の開発者研究者ヲタクの皆さんが触りまくって使い倒して進化させる。一番早くて確実。
画像処理、映像処理全般のことをコンピュータービジョンというのですが、この分野ではAI(深層学習)を用いることが当たり前で、Facebookはこの分野の学会では古くから著名なプレイヤーです。
オブジェクト抽出に関しても、さっと調べた感じ2016年には既にGithubでのソースコードの公開も行われており、今回はその延長にあるのかと思います。
ChatGPTのおかげで、完全に市民権を得たAIですので、追い風となって活用が増えるといいですね。