短い音声から特徴を推測して「声の主の顔」を再構築するアルゴリズム

2019/6/4

AIが描く「驚くほど似通った顔」

アメリカでは、日本よりもラジオを聞く機会が多い。特にカリフォルニアのような場所では運転に費やす時間が長いので、車中でニュースや情報番組、交通・天気情報などを流していることが多いためだ。
根強い人気を持つインタビュー番組や経済番組があることも、ラジオが生き残っている理由だろう。
さて、そんなラジオから聞こえるさまざまな声を聞きながら、「この人はこんな人なんじゃないかな」と顔を想像している自分がいる。
性別はかなりわかりやすいが、声のかすれ具合から年齢を察し、言葉のなまりや話し方から人種を想像する。話しているテーマから髪形まで付け加えてしまう。何の根拠もないのに、話し手の顔を想像しているのだ。
しかし、この何の根拠もなさそうなことを、AIならば鋭く見抜く才能があるようだ。先ごろ発表されたMITの研究者による論文では、短い音声から声の主の顔をかなりの近さで推測することができるのだという。
論文に掲載されている写真を見て、驚いた。声の主の写真とAIが推測した顔の画像が、びっくりするほど似通っているのだ。「ここまでわかるのか」と、あぜんとする。

10万人分の顔と声の組み合わせ

この研究では、まずインターネットから抽出した何百万ものビデオを使って、顔と音声の組み合わせを学習させた。10万人以上の人の顔と声の組み合わせが使われている。
学習に際しては、人間がカテゴリーを指示してアノテーションを行うようなことはなく、AIが独自に学んでいったという。
顔については、顔認識技術で用いられる要素も含め、さまざまな観点からその構造が分析された。上唇の厚み、顎の幅、鼻の高さや幅などなどだ。なかには、唇歯音(しんしおん)と言って、上の前歯と下唇の摩擦によって生じる音を発する範囲なども含んでいる。
一方、音声は複雑な音声分析によって処理され、それが顔の特徴を組み立てていくという流れだ。
結果的に、このアルゴリズム『スピーチ2フェイス』は、ちょっと音声を聞くだけで、要素を選び出して顔の特徴を推測し、正面を向いた顔を再構築する。もちろん、声の主その人ではないものの、年齢や骨格がそっくりだ。よく見比べると、目の表情まで似ている。
ここまで推測できるのかと、ちょっと空恐ろしい気持ちになる。顔認識をするカメラがあらゆる場所にある街中では、もう顔をさらさないようにする方法を探すしかないと思っていたが、こんなAIが出てくると、うっかりと声も出せないではないか。

あまたある悪用されるシナリオ

この論文では、このアルゴリズムをどう使うかについては倫理的に考察が必要だと付け加えている。
一つには、AIが学習したのは顔の特徴なので、本当のアイデンティティは明らかでなく、また再構築した顔も実在する顔ではないと断っている。もう一つは、学習したデータは全人類を代表するものではなく、YouTubeの教育ビデオだったため、おのずと偏りがあるということだ。
さて、こんなAIはどのように利用するのだろうか。論文では、電話があった時に「こんな顔の特徴を持つ人からかかってきた」という画像を表示するような有用性があるとしている。
しかし、残念なことに、私としては悪用されるシナリオしか思い浮かばない。
ホテルにマイクを仕掛け、そこでの話し声から誰が泊まっているのかを推測する。採用の応募者をまず電話でインタビューし、特定の人種を外す。しかも、直接会っていないのだから人種差別をしたという証拠はないと言い張れる。裁判でアイデンティティを隠したい証言者の顔を明らかにしてしまうことも考えられる。
面白いAIなのに、どうも近い将来に嫌な成り行きが待っていそうな気がするのだ。
*本連載は毎週火曜日に掲載予定です。
(文:瀧口範子、写真:www.csail.mit.edu)