人間のヘルプが欠かせない機械学習

いまや人工知能(AI)アシスタントを使ったスマートスピーカーで、ゲームをしたり、音楽を探したり、日常生活のちょっとした雑用をこなす人は、米国だけでも数千万人に上る。その一方で、誰かに会話を聞かれているのはと、購入に消極的な人も少なくない。
その懸念は、あながち的外れではない。
アマゾン・ドットコムは、スマートスピーカー「エコー」が拾った音声の一部を人間が聞いて、AIアシスタント「アレクサ」の性能向上に役立てているのだ。
関係者7人(ボストン、コスタリカ、インド、ルーマニアの外注業者とアマゾンのスタッフの両方が含まれる)の話によると、こうした音声は文字起こしされ、解釈が加えられて、ソフトウエアにフィードバックされる。それによってアレクサが、人間の言葉をより正確に理解し、正しく反応できるようにするためだ。
そのプロセスは、ソフトウエアのアルゴリズムを教育するうえで忘れられがちな、人間の役割に脚光を当てている。
アマゾンのマーケティング資料には、アレクサは「クラウドに存在し、どんどん賢くなっている」と書かれている。だが、経験から学ぶ多くのソフトウエアツールと同じように、その学習機能の一部は人間が担っている。
彼らは1日9時間、最大で1000本もの音声クリップの解析をしていると、ブカレスト(ルーマニア)のアマゾンに勤務する2人は言う。そのオフィスは新興ビジネス地区ピペラにある高層ビルの最上階3フロアを占めるが、アマゾンが入っていることを示す看板やロゴはない。
作業内容そのものは、ハイテクとはあまり関係がない。ボストンのアマゾンに勤務する人物によると、蓄積された音声データから「テイラー・スウィフト」といった言葉を見つけてきて、「歌手のこと」というように解釈をつけてやる。
なかには、シャワー中の女性のひどく音痴な歌や子どもの絶叫など、ユーザーが聞かれたくない音声が録音されていることもある。はっきり聞き取れない言葉があるときや、微笑ましい録音に出会ったときは、スタッフは社内チャットルームでその音声ファイルをシェアすることができる。

犯罪がらみの音声を聞いた場合

不快な音声や、犯罪がらみではないかと思われる音声もある。今回話を聞いた7人のうち2人は、性暴力と思われる音声を聞いたという。
アマゾンによると、このような不快な音声を耳にしたときの手順はきちんと定められており、スタッフがストレスを溜め込まないよう、社内チャットルームでその話を打ち明けられるようになっている。
ただし、犯罪とおぼしき状況に介入するのはアマゾンの仕事ではないと、ルーマニアのスタッフ2人は上司に言われたという。
「アマゾンは、セキュリティーと個人情報の保護を極めて重視している」と、アマゾンの広報担当者はメールで回答している。
「カスタマーエクスペリエンスを向上させる目的で、アレクサの音声録音のごく一部を抽出して解釈を注釈をつけているにすぎない。その情報はたとえば、音声認識や自然言語理解システムを向上させて、アレクサがユーザーのクエストをより正確に理解し、サービス全体をうまく機能させるために使われる」
「アマゾンには、テクニカルおよび作業上の厳格なルールがあり、システムの乱用は一切容赦しない。スタッフは作業上、ユーザーまたはアカウントを特定できる情報に直接アクセスすることはない。すべての情報は極秘扱いであり、多要素認証、サービス暗号化、管理環境監視などによりアクセスを制限している」

やろうと思えばユーザーの特定は可能

だが、アマゾンのマーケティング資料や個人情報保護方針資料には、アレクサが拾った音声録音を人間が聞いていることは明記されていない。「よくある質問」に、「アマゾンでは、あなたのアレクサへのリクエストをもとに、会話認証システムと自然言語理解システムの訓練している」と書いてあるにすぎない。
アレクサはプライバシー設定で、自分の音声がこうした機能開発に使われることを「無効」にすることができる。
ブルームバーグが入手したシステムのスクリーンショットによると、アマゾンのスタッフが解析する音声ファイルには、ユーザーのフルネームや住所は表示されていないが、アカウント番号とユーザーのファーストネーム、そして「エコー」のシリアルナンバーは記載されている。
オンライン誌「インターセプト」は今年1月、アマゾン傘下のホームセキュリティー企業リング(Ring)のスタッフが、インターホンの防犯カメラが捉えた映像から、複数のクルマと人をマニュアルで特定したことを報じた(ソフトウエアが自動的にその作業をできるよう訓練するプロセスの一環として)。
「自宅のようなプライベートな空間で、スマートスピーカーに話しかけたことを他人が聞いていると思う人はあまりいないだろう」と、ミシガン大学のフロリアン・ショーブ教授は言う。「こうしたマシンは機械学習をしているだけだと私たちは思い込んでいるが、実際にはまだ、人間の作業が介入している」
「それがプライバシー上の懸念かどうかは、どの情報を人間が処理し、その情報を具体的にどのような形で提示するかを、アマゾンなどの企業がどれだけ慎重に検討しているかによって異なる」とショーブは言う。

英語以外の言語で起動ワードを勘違い

2014年にアマゾンの「エコー」が登場すると、またたくまに家庭用音声アシスタントは大人気になった。やがてアルファベットの「グーグルホーム」、アップルの「ホームポッド」が続いた。中国には、さまざまなメーカーのスマートスピーカーが出ている。
調査会社カナリスによると、昨年の世界のスマートスピーカー販売台数は7800万個にのぼった。それ以外にも、スマートフォンの音声アシスタントを利用している人が数百万人いる。
アマゾンのAIアシスタント「アレクサ」は、「起動ワード」につねに聞き耳を立てているよう設計されている。この起動ワードは、初期設定では「アレクサ」になっているが、「エコー」や「コンピューター」に変えることもできる。
この起動ワードが聞こえると、エコーのてっぺんのリングが青く光り、コマンドを録音してアマゾンのサーバーに送っていることを示す。
現代の音声認識システムは、人間の脳を模したニューラルネットワークを活用しており、使えば使うほど、莫大なデータからパターンを見つけて学習するようになっている。現段階では、そのプロセスを人間が手伝っているのは、アマゾンもアルファベットもアップルも同じだ。
とりわけエコーなどのスマートスピーカーのソフトウエアは、確率モデルを使って、言われたことを推測するようになっている。たとえば、「アレクサ、この近くにギリシャの場所(a Greek place)ない?」と言われたら、おそらくギリシャ教会ではなく、ギリシャ料理店を探しているのだと推測するといった具合だ。
だが、アレクサも間違うときはある。とくに新しいスラングや、地域的な表現や英語以外の言語のときは難しくなる。
フランス語の「アヴェック・サ(彼と/彼女と)」を「アレクサ」という起動ワードだと思ってしまうこともある。スペイン語で事実や行いを意味する「エチョ(Hecho)」は「エコー(Echo)」と誤解されることがある。こうした知識ギャップを埋めるのが人間の役割だ。
最近のアマゾンの求人広告には「彼女(アレクサ)は毎日、多くの人がさまざまなトピックについて、さまざまな言語で話すのを聞いている。でも、そのすべてを理解にするには、助けてくれる人が必要だ」と書かれていた。
これはブカレストのアレクサ・データ・サービスの品質保証マネジャー募集広告で、「あなたが見たこともないようなビッグデータを処理する作業だ」とある。「私たちは毎日、膨大な量の音声データにタグをつけ、整理し、解析している」

「アレクサ、きみはスパイなのか?」

関係者の話を総合すると、アマゾンにおける音声データのレビュープロセスは次のようになっている。
まず、アレクサがユーザーの音声録音のごく一部をランダムに抜き出し、従業員や外注業者に送ってくる。すると、ある担当者はユーザーのコマンドを書き起こし、アレクサの自動書き起こしと比較したうえで、ユーザーは何を頼み、アレクサはどのような反応を示したか記録する。
別の担当者は、アレクサが拾い上げた音声をすべて書き起こす。コマンド以外の背景の会話(子どもが話している場合でも)も全部だ。もしそこに個人名や銀行口座など個人情報が含まれている場合は、「重要データ」の欄にチェックを入れる。
アマゾンのウェブサイトによると、起動ワードを聞き取るか、エコーのボタンが押されるまで、アレクサが音声を録音することはない。だが、テレビの音声や、なんらかの雑音に反応して録音を始めることもある。
そうしたファイルに当たった場合でも、担当者は音声の書き起こしをしなければならない。それは1日に多くて100件にもなることがあるという。
もうひとつ、今回取材に応じてくれたアマゾンのスタッフをおもしろいことを教えてくれた。世界中のエコーの所有者たちは、誰かが自分たちの会話に聞き耳をたてているのではないかと心配しているというのだ。
「きみはNSA(米国家安全保障局)の回し者なのか?」と、彼らはアレクサに聞くという。「アレクサ、誰かが私たちの会話を聞いているのか?」と。
原文はこちら(英語)。
(執筆:Matt Day記者、Giles Turner記者、Natalia Drozdiak記者、翻訳:藤原朝子、写真:Michael Wapp/iStock)
©2019 Bloomberg L.P
This article was translated and edited by NewsPicks in conjunction with IBM.