ChatGPT、“目”と“耳”の実装を発表　写真の内容を認識、発話機能でおしゃべりも可能に

ITmedia

2023/09/25

823

Picks

このまま本文を読む

本文を読む

注目のコメント

松村太郎
i-u.ac.jp / code.ac.jp / castalia.co.jp / forks.tokyo Journalist
・2023年09月26日
こうなってくると、いよいよ最適化された優れた「デバイス」が必要になってくると思います。そこが、オープンAIの1つの流れ角になってくるのではないかと思います。

というのは、Googleやアマゾン(やアップル)は、広く消費者に行き渡るデバイスを擁しています。

目や耳の競争が本格的になってくると、こうしたデバイスメーカーがより有利な展開になってくると考えているので、オープンAIはどのようにして、パソコン以外のデバイスを味方につけていくのか、と言う部分に注目しています。
佐々木励
ELYZA Product Manager
・2023年09月26日
音声と画像を別々にリリースせず、同時にすることで、一気にユーザー体験を飛躍させる戦略ですね

画像認識は、音声やテキスト処理よりコストがかかるので、ChatGPTの価格が据え置きなら、OpenAIの財務的なチャレンジですね。

技術的には、
・音声認識：OpenAIが1年前に発表したオープンソースWhispier
・音声合成：新たに開発
・画像認識：GPT-3.5, GPT-4
中瀬幸子
Avintonジャパン㈱代表取締役・大学講師・生成AI 活用普及協会協議員
・2023年09月26日
これはすごい機能ですね。まるで自分のアシスタントのように画像と音声を理解し欲しい回答をくれます。

ホームセンター他、お店などでうまく使えば店員の仕事の代替になってくれそうだなと思いました。

画像をOpenAIにインプットしてヒントを得る、そのソースの多くはネット情報、ということで、ネット情報がOpenAIに表示されるような最適化が情報提供者には重要になってきそうですね。

最新のOpenAIのデモを公式Ｘ(Twitter)で見るとその凄さを実感できると思います！

https://twitter.com/OpenAI