Siri、Alexa...「音声アシスタント」がChatGPTに負けた理由

The New York Times

INDEX

12年前の「熱狂」
時代はチャットボットへ
「進化しにくい」仕組み
アマゾンの「読み間違い」
報われなかった投資
2つの技術は「融合」する

12年前の「熱狂」

ある雨の火曜日、サンフランシスコのホールを埋め尽くす観衆を前に、アップルの幹部らが舞台に登場した。発表された第5世代のiPhoneは、外見こそ前のバージョンと同じだったが、搭載された新機能に会場はざわめいた。

それが、バーチャルアシスタント「Siri（シリ）」の登場だった。

当時、アップルのソフトウェア部門を率いていたスコット・フォーストールは、iPhoneのボタンを押してSiriを呼び出し、質問を投げかけた。

するとSiriは言われたとおりに、パリの時刻を確認し、「mitosis（有糸分裂）」の意味を説明し、高評価のギリシャ料理店14軒のリストを挙げた。そのうち5軒は、会場の近隣にある店だった。

2011年10月4日の発表会で、Siriは華々しくお披露目された（Kevork Djansezian/Getty Images）

「私は長い間AIの分野に携わってきましたが、この性能には感動せざるをえません」と、フォーストールは語った。

それが、いまから12年前のことだ。

しかし時を経たいま、Siriや、競合するアマゾンのAlexa（アレクサ）、グーグル・アシスタントといったAIアシスタントの存在は、もはや感動とはほど遠い。

この種のテクノロジーはほぼ停滞したままで、しゃべるアシスタントはジョークのネタになっている。

アメリカのバラエティ番組「サタデー・ナイト・ライブ」の2018年のコントでは、「高齢者向けのスマートスピーカー」が登場した。

【ブーム絶頂】一攫千金、投資家が群がる一押しスタートアップ

NewsPicks編集部

Amazon販売用の武装ツールが頭角を現し始めた

NewsPicks編集部

プレミアム会員限定の記事です
今すぐ無料トライアルで続きを読もう。

オリジナル記事 7,500本以上が読み放題
オリジナル動画 350本以上が見放題
The Wall Street Journal 日本版が読み放題
JobPicks すべての職業経験談が読み放題

今すぐ無料トライアル

学生の方はこちら

法人プランはこちら

注目のコメント

佐藤元則
NCB Lab. 代表
・2023年03月21日
音声アシスタントの性能は悪かったけれど、生成型AIと連携することによって、大幅に改善されるでしょう。音声は入力する手間がない。

曖昧な表現でも、真意を汲んで、質問をしながら的確な回答を生成してくれる、というようなアシスタントが出てくるのが楽しみです。
和田崇
㍿Laboro.AI 執行役員／マーケティング部長
・2023年03月21日
なぜChat GPTが、SiriやAlexaなどの音声アシスタントを凌ぐ勢いを見せているのか、そこには文化的な理由、技術的な理由の２があるように思います。

まず、これらのツールの普及を促すためにはユーザーの日常生活に溶け込み、文化として浸透する必要があります。そのため、PCやスマホ操作で慣れている「文字入力」というChat GPTのUIは、私たちにとって慣れ親しんだ方法であり、浸透しやすい側面を持っています。一方、音声アシスタントが採用する、声で呼びかける音声入力は、（私も含めて…）抵抗感を覚える人も少なくなく、浸透の一つのハードルになっていると考えられます。

もう一つが、UIに関わる技術的な側面です。Chat GPTが基本的に「文章入力→文章出力」の自然言語処理という技術分野でUIを完結していることに対して、音声アシスタントは「音声入力→文章出力」というマルチモーダルな対応を前提としています。音声⇄文章への変換処理が必要になることに加え、音声の認識・生成自体が非常に難易度の高い技術領域で（ex. 発話の訛り、ゆらぎ、騒音、聞き分けなど）、開発の難しさが圧倒的に異なります。

しかしながら、音声アシスタントのこれらのビハインドを「負け」とするには時期尚早かもしれません。ある意味、音声アシスタントは登場が早すぎました。現状はコマンドベース（≒マニュアル的な指示・回答）の音声アシスタントですが、今後、GPTのようなLLM（大規模言語モデル）と連携されたときには、相当な利便性をもったツールが、私たちの手元にやってくることになります。

記事にも基けばAppleやAmazonは、独自のLLMを開発することを選んでいるようです。新たな生活シーンの創造に向けた開発競争は、今スタートが切られたところです。
Kato Jun
ユーザベース SPEEDAアナリスト
・2023年03月21日
技術というのはこういうものだと思っている。
iPhoneが登場したのは2007年だが、PDA（Personal Digital Assistant）のNewtonが初めて発表されたのは、きしくもその15年前の1992年（販売開始は1993年）。15年間のギャップがあった。またその間にも、PalmやソニーのClieなど、全面液晶で携帯する情報端末というコンセプトは多くあったし、iPhone以前にもHTCなどが出していたものもある。

Gartnerのハイプサイクルが、それを表しているし、技術と人間の本質だと思う。
技術が進化することで、明るい未来が想像できる。想像できるからワクワクし、期待が高まり、人とお金が集まる循環が出来る。一方で、一筋縄にはいかないから、その期待通りにはできず失望、幻滅期が来る。
そこで淘汰されるものもあるが、技術の蓄積や、半導体や通信技術、アルゴリズムの進化なども含めて、時間によって熟成されて、実現される未来もある。

今、まさにSiriとかが描いていた未来が、現実レベルで出来そうになっているのだと思う。
もちろん完璧ではないと思うし、あくまで機械。だから機械が人間と同じように理解をしているわけではなく、人間が「機械が理解した」と錯覚しているだけ。でもそう思えるところまで進化したというのが本当にすごいこと。
リスクも認識しつつ、進化する技術としなやかに付き合い、活用したり出てくる課題を拒否ではなく解消していく人類社会でありたい。