ジェネレーティブAIにMicrosoft、Google参戦!次に来るのはスマートスピーカーの普及?
コメント
注目のコメント
直近のChatGPTなどLLM(大規模言語モデル)周辺の話題がわかりやすく整理されており、キャッチアップに非常に良い記事だと思いました。
ところで、記事内でGPT4を使ってポケモンのプレイが可能だったという紹介がありますが、リンク先を確認すると、あくまでChatGPT上のチャットベースで擬似プレイが可能だったということのようです(とはいえ、それはそれですごい)。
また、「実際の攻略法を(その場で)シミュレートしたのではないか」といった記述がありますが、GPT4は、事前学習した文字ベースのデータから次に来るであろう文章を予測する仕組みであるはずのため、シミュレーション(試行錯誤)は実行しておらず、ネット上の情報から得られた傾向や手順をストレートに出力しているのみだと考えられます。
また、通常これらのシミュレートを行うためには一定の推論時間が必要となるのが普通であるため、その点でもChatGPTのリアルタイム性のあるレスポンスからすると、シミュレーション実行の可能性は低い気がします。(それでもやはりすごい。)
しかし、スマートスピーカーへの連携というのはかなり現実的な話です。実際、すでにGPT搭載の音声チャットツールも登場しているため、比較的遠くないタイムラインで、各スマートスピーカーに実装されていくものと思われます。
とくに一般消費者の利用シーンは、AIが誤った出力をしたとしても「まぁ機械だから仕方ない」で許されるケースが多いため、技術受容性が高く、浸透は早いものと考えられます。一方、正確な回答が求められるビジネスシーン(ex.医療、コールセンター、接客対応、マーケティング etc.)となると、誤りが許されないケースも少なくない上、著作権の問題もクリアする必要があるため、浸透には比較的時間を要するのではないかと想像されます。人が音声のみで理解できる情報量には限りがある。
それがボトルネックだから、回答側がどれだけ頭が良くなるかは関係ない。
あるとすれば、人の顔色を確認して理解度を慮るだけの配慮ができるほどに高性能になるかどうかだと思うが、そうすると顔を見るカメラが必要で、人にそのカメラが写る位置まで移動してもらう必要がある。それならテキストベースの問答でいいだろう。コマンドが自然言語に変わっていくことを考えると、インプットのインターフェイスが変わっていくことも容易に考えられますね。これは UI の定義がさらに拡張していくことを意味していると思います。音声に限らず、もっと抽象的なものが具体化されていくのだろうな。ただその質感のチューニングが難しいのではとも思う。