ZOZOと早稲田大学、AIが曖昧なファッションの表現を自動で解釈する技術を開発

デジタルシフトタイムズ

2022/11/24

163

Picks

このまま本文を読む

本文を読む

選択しているユーザー

山崎俊彦
東京大学大学院情報理工学系研究科電子情報学専攻　教授
・2022年11月24日
早稲田大学にはファッション画像認識で著名な先生がいらっしゃるのでてっきりその先生の業績かと思ったら、そうではないようです。それだけ層の厚い研究者を抱えていらっしゃる証ですね。

説明性AIについては、よくこのリリースにあるようにヒートマップで表されることがあります。企業との共同研究で言われるのが「場所がわかってもそれがどんなふうになっていると言っているのかがわからない」というものです。

いま、説明性AIについては面白い研究をしていて、一般車とトラックの違いを説明させようとしているのですが、今のところうまく行っているように見えます。

注目のコメント

シバタアキラ
Weights & Biases カントリーマネージャー
・2022年11月24日
「来年の春のトレンドを取り入れつつ、もオーソドックスなスタイルスーツ」などの検索でZOZOの商品を検索できるとなると、オンラインストアにとっては人間の販売員がいるかのような利点を獲得することができる。
崔井源
NewsPicks, Inc. engineer
・2022年11月24日
ユーザーの曖昧な問いに答えるVisual-Semantic Embedding（画像とそれに関連するテキストを同じ空間に写像する技術で、主に、画像に対する質疑応答モデル、画像と最も関連するテキストを見つけるモデル、画像キャップション生成モデル、画像中の物体同士の意味関係のグラフを生成するモデルなどに使われる）に基づき、ファッションに特化した画像質疑応答システムを開発したとのこと。

検索には画像検索機能を使い、例えば「これはアメカジですか？」と聞いたら「ここら辺がアメカジです」などと教えてくれるらしい。どの部分がアメカジなのかを判定するところは、Attribute Activation Map（あるテキストのタグが特定の画像のどの部分に高く関連しているかを表す機能）を用いたらしい。
ちなみに、データとして小さい複数の物体（各服）が含まれた全身コーディネート画像と各画像の属性（Attribute）としてつけたテキストのタグ（「デニム」、「スカート」、「春のコーデ」など）を用いたらしい。このタグはユーザがつけたもので、とても似ている画像に対して別のタグが付けられている可能性がある。今回発表したFashion Intelligence Systemではこの全身コーデ画像とユーザのタグを同じ空間に写像して得られた埋込み表現を使ったらしい。

面白い！！