Siri、Alexa...「音声アシスタント」がChatGPTに負けた理由
- 12年前の「熱狂」
- 時代はチャットボットへ
- 「進化しにくい」仕組み
- アマゾンの「読み間違い」
- 報われなかった投資
- 2つの技術は「融合」する
プレミアム会員限定の記事です
今すぐ無料トライアルで続きを読もう。
オリジナル記事 7,500本以上が読み放題
オリジナル動画 350本以上が見放題
The Wall Street Journal 日本版が読み放題
JobPicks すべての職業経験談が読み放題
音声アシスタントの性能は悪かったけれど、生成型AIと連携することによって、大幅に改善されるでしょう。音声は入力する手間がない。
曖昧な表現でも、真意を汲んで、質問をしながら的確な回答を生成してくれる、というようなアシスタントが出てくるのが楽しみです。
なぜChat GPTが、SiriやAlexaなどの音声アシスタントを凌ぐ勢いを見せているのか、そこには文化的な理由、技術的な理由の2があるように思います。
まず、これらのツールの普及を促すためにはユーザーの日常生活に溶け込み、文化として浸透する必要があります。そのため、PCやスマホ操作で慣れている「文字入力」というChat GPTのUIは、私たちにとって慣れ親しんだ方法であり、浸透しやすい側面を持っています。一方、音声アシスタントが採用する、声で呼びかける音声入力は、(私も含めて…)抵抗感を覚える人も少なくなく、浸透の一つのハードルになっていると考えられます。
もう一つが、UIに関わる技術的な側面です。Chat GPTが基本的に「文章入力→文章出力」の自然言語処理という技術分野でUIを完結していることに対して、音声アシスタントは「音声入力→文章出力」というマルチモーダルな対応を前提としています。音声⇄文章への変換処理が必要になることに加え、音声の認識・生成自体が非常に難易度の高い技術領域で(ex. 発話の訛り、ゆらぎ、騒音、聞き分けなど)、開発の難しさが圧倒的に異なります。
しかしながら、音声アシスタントのこれらのビハインドを「負け」とするには時期尚早かもしれません。ある意味、音声アシスタントは登場が早すぎました。現状はコマンドベース(≒マニュアル的な指示・回答)の音声アシスタントですが、今後、GPTのようなLLM(大規模言語モデル)と連携されたときには、相当な利便性をもったツールが、私たちの手元にやってくることになります。
記事にも基けばAppleやAmazonは、独自のLLMを開発することを選んでいるようです。新たな生活シーンの創造に向けた開発競争は、今スタートが切られたところです。
技術というのはこういうものだと思っている。
iPhoneが登場したのは2007年だが、PDA(Personal Digital Assistant)のNewtonが初めて発表されたのは、きしくもその15年前の1992年(販売開始は1993年)。15年間のギャップがあった。またその間にも、PalmやソニーのClieなど、全面液晶で携帯する情報端末というコンセプトは多くあったし、iPhone以前にもHTCなどが出していたものもある。
Gartnerのハイプサイクルが、それを表しているし、技術と人間の本質だと思う。
技術が進化することで、明るい未来が想像できる。想像できるからワクワクし、期待が高まり、人とお金が集まる循環が出来る。一方で、一筋縄にはいかないから、その期待通りにはできず失望、幻滅期が来る。
そこで淘汰されるものもあるが、技術の蓄積や、半導体や通信技術、アルゴリズムの進化なども含めて、時間によって熟成されて、実現される未来もある。
今、まさにSiriとかが描いていた未来が、現実レベルで出来そうになっているのだと思う。
もちろん完璧ではないと思うし、あくまで機械。だから機械が人間と同じように理解をしているわけではなく、人間が「機械が理解した」と錯覚しているだけ。でもそう思えるところまで進化したというのが本当にすごいこと。
リスクも認識しつつ、進化する技術としなやかに付き合い、活用したり出てくる課題を拒否ではなく解消していく人類社会でありたい。
マイニュースに代わり
フォローを今後利用しますか