ChatGPT、“目”と“耳”の実装を発表　写真の内容を認識、発話機能でおしゃべりも可能に

ITmedia

2023/09/25

824

Picks

このまま本文を読む

本文を読む

選択しているユーザー

芝先恵介
株式会社トラベルテックラボ代表取締役
・2023年09月26日
米OpenAIは、チャットAI「ChatGPT」に画像認識、音声認識、発話機能を搭載したと発表。この機能はPCやスマホからアクセス可能で、音声はiOS／Androidで利用できる。画像認識は、写真やドキュメントの読み取りができ、音声認識は「Whisper」を使用。音声は5つの種類から選べる。

OpenAIの進化により、リアル世界への進出が現実的になりました。これまでのAIはテキストベースが主流でしたが、ChatGPTの新機能により、画像や音声の認識が可能に。これにより、IoT機器などとの連携が容易に。

例えば、家の中のIoT機器がChatGPTを利用して、冷蔵庫の中身を認識し、食事の提案をするなどの活用が考えられます。

この技術の進化により、学習データが爆発的に増えて、OpenAIの一強がさらに強化されますね。

注目のコメント

松村太郎
i-u.ac.jp / code.ac.jp / castalia.co.jp / forks.tokyo Journalist
・2023年09月26日
こうなってくると、いよいよ最適化された優れた「デバイス」が必要になってくると思います。そこが、オープンAIの1つの流れ角になってくるのではないかと思います。

というのは、Googleやアマゾン(やアップル)は、広く消費者に行き渡るデバイスを擁しています。

目や耳の競争が本格的になってくると、こうしたデバイスメーカーがより有利な展開になってくると考えているので、オープンAIはどのようにして、パソコン以外のデバイスを味方につけていくのか、と言う部分に注目しています。
佐々木励
AI企業旅する魔法使い
・2023年09月26日
音声と画像を別々にリリースせず、同時にすることで、一気にユーザー体験を飛躍させる戦略ですね

画像認識は、音声やテキスト処理よりコストがかかるので、ChatGPTの価格が据え置きなら、OpenAIの財務的なチャレンジですね。

技術的には、
・音声認識：OpenAIが1年前に発表したオープンソースWhispier
・音声合成：新たに開発
・画像認識：GPT-3.5, GPT-4
中瀬幸子
Avintonジャパン㈱代表取締役・大学講師・生成AI 活用普及協会協議員
・2023年09月26日
これはすごい機能ですね。まるで自分のアシスタントのように画像と音声を理解し欲しい回答をくれます。

ホームセンター他、お店などでうまく使えば店員の仕事の代替になってくれそうだなと思いました。

画像をOpenAIにインプットしてヒントを得る、そのソースの多くはネット情報、ということで、ネット情報がOpenAIに表示されるような最適化が情報提供者には重要になってきそうですね。

最新のOpenAIのデモを公式Ｘ(Twitter)で見るとその凄さを実感できると思います！

https://twitter.com/OpenAI