Picks
529フォロー
626フォロワー
Stable Diffusion 3発表 「画像内でのアルファベット表記」が可能に
Impress Watch
和田 崇㍿Laboro.AI 執行役員/マーケティング部長
画像内に文字を生成させるというのは、一見大したことに感じられませんが、実はすごいことだったりします。 詳しい技術はさておき、基本的に今の画像生成AIの多くのアプローチでは、画像の"見た目"に関わる情報のみを学習し、生成を行っています。いい変えれば意味を理解しているわけではないということです。 飛躍を恐れず例えみると、仮に学習データの画像内に「A」という文字列が書かれていたとしても、AIにとってはそれは「A」ではなくて、線で描かれた単なる図形であり、画像の一部でしかありません。 そのため、現状の画像生成AIでテキストを描画させようとすると、文字デザインが崩れてしまったり、スペルミスがあったりと、不完全なものが出来上がることが少なくありません。 画像情報を扱うコンピュータビジョン領域と、文字情報を扱う自然言語処理の領域、この2分野が両立しないと画像内でのテキスト描画はうまくいかず、今回のStable Diffusion3は、それだけ難易度の高いことを実現している技術だと言えます。 ちなみに記事内でも紹介されている「フローマッチング」は、今の画像生成AIモデルの多くで採用されている「拡散モデル」よりも、高精度かつ効率的な生成ができるとされていて、画像生成AIをネクストレベルに引き上げる技術などとも言われています。 OpenAIが動画生成AI「Sora」を先日発表するなどもありましたが、とにかく技術展開が早いです。。。
59Picks
マーケティング部門で生成AIを活用する5つのコツ なぜ関心は高いのに導入が進まないのか
生成AIはマーケティングを変革する可能性を秘めている。一方、マーケティング部門のリーダーは生成AI活用に慎重な傾向があり、他の分野のリーダーに比べて後れを取っている。本稿では、著者たちが調査で得た知…
和田 崇㍿Laboro.AI 執行役員/マーケティング部長
このコメントはアカウントを作成すると読むことができます。
2Picks
NORMAL