ChatGPT、“目”と“耳”の実装を発表 写真の内容を認識、発話機能でおしゃべりも可能に
コメント
選択しているユーザー
米OpenAIは、チャットAI「ChatGPT」に画像認識、音声認識、発話機能を搭載したと発表。この機能はPCやスマホからアクセス可能で、音声はiOS/Androidで利用できる。画像認識は、写真やドキュメントの読み取りができ、音声認識は「Whisper」を使用。音声は5つの種類から選べる。
OpenAIの進化により、リアル世界への進出が現実的になりました。これまでのAIはテキストベースが主流でしたが、ChatGPTの新機能により、画像や音声の認識が可能に。これにより、IoT機器などとの連携が容易に。
例えば、家の中のIoT機器がChatGPTを利用して、冷蔵庫の中身を認識し、食事の提案をするなどの活用が考えられます。
この技術の進化により、学習データが爆発的に増えて、OpenAIの一強がさらに強化されますね。
注目のコメント
こうなってくると、いよいよ最適化された優れた「デバイス」が必要になってくると思います。そこが、オープンAIの1つの流れ角になってくるのではないかと思います。
というのは、Googleやアマゾン(やアップル)は、広く消費者に行き渡るデバイスを擁しています。
目や耳の競争が本格的になってくると、こうしたデバイスメーカーがより有利な展開になってくると考えているので、オープンAIはどのようにして、パソコン以外のデバイスを味方につけていくのか、と言う部分に注目しています。音声と画像を別々にリリースせず、同時にすることで、一気にユーザー体験を飛躍させる戦略ですね
画像認識は、音声やテキスト処理よりコストがかかるので、ChatGPTの価格が据え置きなら、OpenAIの財務的なチャレンジですね。
技術的には、
・音声認識:OpenAIが1年前に発表したオープンソースWhispier
・音声合成:新たに開発
・画像認識:GPT-3.5, GPT-4これはすごい機能ですね。まるで自分のアシスタントのように画像と音声を理解し欲しい回答をくれます。
ホームセンター他、お店などでうまく使えば店員の仕事の代替になってくれそうだなと思いました。
画像をOpenAIにインプットしてヒントを得る、そのソースの多くはネット情報、ということで、ネット情報がOpenAIに表示されるような最適化が情報提供者には重要になってきそうですね。
最新のOpenAIのデモを公式X(Twitter)で見るとその凄さを実感できると思います!
https://twitter.com/OpenAI