「GPT-4o」はなんて読む？　女性の声はスカーレット・ヨハンソン（her）似？

ITmedia

2024/05/14

158

Picks

AI要約（β版試験運用中）

1
米OpenAIが新しいGPT-4oモデルを発表
2
GPT-4oはマルチモーダルなAIで、テキスト、音声、画像の組み合わせを入力として受け入れる
3
GPT-4oの声はスカーレット・ヨハンソンに似ているが、そのデータの使用については明確でない

このまま本文を読む

本文を読む

注目のコメント

比屋根一雄
三菱総合研究所執行役員兼研究理事生成AIラボセンター長
・2024年05月14日
日本語なら誰の声が良いですかね？

天海祐希さん、北川景子さん、綾瀬はるかさんとか。
三林正博
MPCの四日市職制はリーダーだけど超ぺーぺー
・2024年05月14日
GPT-4oの声はherのですか、はぁ。

それはそれとして気になったのは記事の最後の方

> OpenAIは、15秒分の声のデータがあれば本人そっくりな音声を生成できる生成AIモデル「Voice Engine」を発表している。

FBやTikTokなどのSNSで有名人を騙る詐欺広告が広がっていて、そこに生成AIによる作り物の声が使われていました。
その声の喋り方は聞く限り偽物だなとすぐ分かる程度の粗悪なものでしたが、それでも引っかかる被害者は多い。
このVoiceEngineがもっと本物に近いものになったらと考えると危険でもあります。
KATAOKA HIROKI
Cyberagent inc
・2024年05月14日
GPT-4oが従来のChatGPTより優れている点５つをChatGPTに聞いてみました

1. 多様な入力形式
GPT-4oはテキスト、音声、画像の入力を受け付けることができる。

2. 多様な出力形式
GPT-4oはテキスト、音声、画像の出力を生成することができる。

3. 応答速度
音声入力に対して最短232ミリ秒、平均320ミリ秒で応答する。

4. 非英語テキスト性能
非英語の言語のテキストに対する性能が大幅に改善されている。

5. APIコスト
GPT-4oはAPIの利用コストがGPT-4の50%となっている。

日本語ネイティブで円安の日本円資産を持つ我々には優しいバージョンアップのようです。