「GPT-4o」はなんて読む? 女性の声はスカーレット・ヨハンソン(her)似?
AI要約(β版試験運用中)
- 1米OpenAIが新しいGPT-4oモデルを発表
- 2GPT-4oはマルチモーダルなAIで、テキスト、音声、画像の組み合わせを入力として受け入れる
- 3GPT-4oの声はスカーレット・ヨハンソンに似ているが、そのデータの使用については明確でない
コメント
注目のコメント
GPT-4oの声はherのですか、はぁ。
それはそれとして気になったのは記事の最後の方
> OpenAIは、15秒分の声のデータがあれば本人そっくりな音声を生成できる生成AIモデル「Voice Engine」を発表している。
FBやTikTokなどのSNSで有名人を騙る詐欺広告が広がっていて、そこに生成AIによる作り物の声が使われていました。
その声の喋り方は聞く限り偽物だなとすぐ分かる程度の粗悪なものでしたが、それでも引っかかる被害者は多い。
このVoiceEngineがもっと本物に近いものになったらと考えると危険でもあります。GPT-4oが従来のChatGPTより優れている点5つをChatGPTに聞いてみました
1. 多様な入力形式
GPT-4oはテキスト、音声、画像の入力を受け付けることができる。
2. 多様な出力形式
GPT-4oはテキスト、音声、画像の出力を生成することができる。
3. 応答速度
音声入力に対して最短232ミリ秒、平均320ミリ秒で応答する。
4. 非英語テキスト性能
非英語の言語のテキストに対する性能が大幅に改善されている。
5. APIコスト
GPT-4oはAPIの利用コストがGPT-4の50%となっている。
日本語ネイティブで円安の日本円資産を持つ我々には優しいバージョンアップのようです。