OpenAI、ChatGPTの新バージョン「GPT-4o」を発表。無料ユーザー向けにも提供、感情豊かな音声で応答、歌いながら回答も
コメント
注目のコメント
OpenAIは、DALL•E、ChatGPT、Soraなど、積極的にマルチモーダール化を進めてきましたが、それらは基本的には出力(Output)側のマルチ化が中心で、入力(Input)側はテキスト入力によるものでした。流れとしてOutput→Inputの多様化は予想できるものでしたが、今回発表の「GPT-4o」によってInput側のマルチモーダル化の道が大きく拓けた格好になります。
文字が音声に変わっただけにも思えますが、入力されたテキストを処理する自然言語処理と音声認識は技術分野として全く異なるもので、音声認識→言語変換→内容処理→音声変換→出力と、通常のテキストのみのChatGPT以上の処理を要します。そのため、デモ動画を見る限り、その処理&応答スピードにはかなり驚きます。(どのようなモデルが用いられているのか気になる…)
別観点ですが、先般iPhoneへのChatGPT統合に向けたAppleとOpenAIとの提携の噂が報じられています。その真偽は現時点では不明ですが、事実となればSiriのアップグレードのためにこのGPT-4oが搭載されることが想像されます。
スマートフォンだけでなく、さまざまなプロダクトへの搭載が想像される技術の幕開けという感じで、今後の展開がますます楽しみです。若干私の予想は外れましたが、音声でのやり取りは実現してきましたね。
斜め上だったのは「歌を歌いながらの回答」!
各種感覚のINPUTを揃えてきたAIだが、そろそろOUTPUTに関してもバリエーションが増えてきそう。
来年の今頃は「え?AIを搭載していない端末なんてあるの?」と言われているくらい別世界が広がっている予感。動画で日伊の通訳風景を見ましたが指示も言葉で翻訳スピードも速かった。
言語距離の離れている日本語ー英語や英語ーアラビア語だとどうなるか見てみたいです。