大規模言語モデルが“目”を持つとどうなる? グーグルによるデモの内容は
コメント
選択しているユーザー
視覚情報がほとんどを占める検索行動において画像検索の精度向上は魅力的ですが、技術者だけでなく利用者側のリテラシーも高める努力が求められているのだと思いました!
記事によると言葉での検索だけでなく画像情報も絡めた検索ができるようになるようで、それは便利だなと思います。
一方画像認識技術が高度化するにつれ、顔や身分証など個人情報を含む画像を認識する精度も上がるため、促進する一方で、ユーザーライセンスなど運用面での課題が多いことは想像に難くないでしょう。
SFのような出来事が身近に迫っている感覚でワクワクします!
注目のコメント
技術面もある程度わかりやすく説明されており良記事だと思いました。
目当ての画像を探すには、その画像にあらかじめ付与していたタイトルや説明文といったテキスト情報あるいは色や大きさなどの属性情報に対してテキストで検索するのが主な手段でした。一方で、このような情報を付与するのは大きな手間であり、かつ正確性にも課題があります。
そのような処理をせずとも画像の情報を表すエンベディング獲得することで、それもテキストと同じ意味空間に落とし込むことで、テキストのエンベディングと画像のエンベディングの類似度を算出することが可能となるのでテキストによる画像の検索が可能となります。
この技術自体は昔からありますが、LLMをベースとすることによる精度の底上げや、「Vertex AI Multimodal Embeddings」によりシステムへの組み込みがかなり容易になってところが大きいです。これまではこのような画像検索システムを現実的なレイテンシやコストの範囲で開発・運用するのは難しいことでした。
個人的には「OCR処理を必要とせずに、画像に含まれるテキストを直接読み取れる。」の部分が気になっています。内部的には単純にOCRを叩いているということだとは思いますが。LLMがマルチモーダルになり、ますます滑らかなUXになっていくことで、これまでよりも多くの領域にLLMの社会実装が進んでいくと感じました。
ChatGPTなど現状の生成AIサービスでは、情報の入力の面でも、出力する生成物の面でも、まだ使いやすいシーンが限定されています。今後はマルチモーダルかつ、誰でも使えるUXにできることが、特定業界での生成AIの社会実装の是非を左右すると思います。我々は教育領域に特化して、ぐっと研究進めます。大規模画像モデルをテキストで検索できるマルチモーダルモデルです。複雑な質問文でも、かなり精度良く検索できるようです。学習済みモデルが提供されれば、使い勝手が飛躍的に向上しますね。
個人的には、パワーポイント文書や文書中の図表検索が課題なので、この技術の発展に期待しています。