グーグルがGPT-4超えの最新AI「Gemini」発表、Pixel 8 Proで動作する「Gemini Nano」も
コメント
注目のコメント
人間の専門家超えの生成AIでGoogleの逆襲が始まる
囲碁AIで世界を席巻したDeepMindが、今年の4月にGoogleに経営統合され、同時にGeminiという次世代の生成AIの開発が明かされた。
そして、ついにリリースされ、世界で初めてGPT-4を圧倒。さらにMMLU(大規模マルチタスク言語理解)では、人間の専門家を超えるとのこと。
・Gemini: 90.0%
・人間の専門家:89.8%
・GPT-4:86.4%
OpenAIを超えてこそGoogleは評価される。ChatGPT 発表の1年後、Googleの逆襲が始まる。
Gemini - Google DeepMind
https://deepmind.google/technologies/gemini/今までOpenAI/MS連合の後塵を拝してきたGoogleが満を持して肝入りの大規模言語モデルGeminiを出してきましたね。
取り急ぎ以下つが主要なポイント↓
1️⃣ 超マルチモーダル
テキストだけでなく、画像、ビデオ、音声などの幅広いモーダルの入力に対応。更には画像生成、恐らく音声性など複数モーダルの出力にも対応。
2️⃣ 他のLLMを凌駕
一つ前のツイートで比較を紹介しましたが、あのGPT-4も完全に凌駕しています。更に多くの領域で人間の専門家と並ぶパフォーマンスを出しています。
3️⃣ 3サイズ展開
最高性能のUltra、バランスの良い中間サイズのPro、小型軽量のNanoという3サイズが提供。
以下に動画の注目の箇所をクリップして日本語字幕付けておきました。
https://twitter.com/kajikent/status/1732561344245965079
また、Geminiの下のデモは最初にGPT-4の発表を見たときくらいの衝撃です…。
https://twitter.com/kajikent/status/1732562706069360734
Googleの人間がGeminiと戯れるという動画なんですが、カメラからの情報や人間の話す言葉から超柔軟に状況や会話の意図を理解。
その上でほぼ人間のように聞こえるスピーチ生成しながら正確な答えやウィットに富んだ答えを返し、場合によっては画像生成やオーディオ生成して返したりもしてくれる。
これもはやマシンというより、ちょっとした生物…笑
また、GeminiはどうやらGPT-4が苦手な数学や物理などにも強いらしいです。
以下動画のデモでは、手書きの物理のテスト用紙をアップロードすると回答が合ってるか間違ってるかを教えてくれて、間違った設問の解き方を教えてくれたりしています。
https://twitter.com/kajikent/status/1732565324921463126
OpenAIのクーデター騒動の原因にもなった「Q*」は数学の能力に関係するブレークスルーらしいですが、商業的にはそれをリリースする圧力が強まった感じがいます。GoogleがGPT-4に1年で追い付いたとは!
テキストベースの知識回答や問題解決能力を測るMMLUベンチマークでは、Geminiは90%、専門家レベル人間が89.8% 、GPT-4は87%、LLAMA-2は68%、AnthropicのClaude 2は78.5%とのこと。
AI規制が始まれば、どのデータセットで学習したか分かるでしょう。安全性がどこまで担保されたかも気になります。それもあり欧州では公開できていないようです。