マルチモーダル深層学習の研究動向
www.slideshare.net
9Picks
コメント
注目のコメント
NNはネットワークの分岐・合流が要易かつ逐次学習(モデルをちょっとずつアップデートしていく)なのでいろんな工夫ができます。例えば
分岐:マルチタスク学習。一つのネットワークに複数のタスクを解けるように学習させることができます。それによって、変わった問題を解くことが可能に。[1]は間取りの種類の特定の機能を持った部屋の有無判定という2つの問題を解くことで類似間取り検索をできるようにしたもの。
合流:マルチモーダル学習。このPickで話題になったもの。[2]は画像、音響、メタデータ、タレント人気度をマルチモーダルで学習してTVCMの印象・効果を高精度に予測できるようにしたもの。
[1] Yuki Takada, Naoto Inoue, Toshihiko Yamasaki and Kiyoharu Aizawa, “Similar Floor Plan Retrieval Featuring Multi-Task Learning of Layout Type Classification and Room Presence Prediction,” IEEE ICCE, pp. 931-936, 2018.
[2] 中村遵介, 河原達也, 山崎俊彦, “CNNを用いたマルチモーダル処理によるテレビ広告動画の影響予測,” メディアエクスペリエンス・バーチャル環境基礎研究会 (MVE), 信学技報, vol. 118, no. 211, MVE2018-18, pp. 31-35, 2018.