INDEX

短い音声から特徴を推測して「声の主の顔」を再構築するアルゴリズム

2019/6/4

AIが描く「驚くほど似通った顔」

アメリカでは、日本よりもラジオを聞く機会が多い。特にカリフォルニアのような場所では運転に費やす時間が長いので、車中でニュースや情報番組、交通・天気情報などを流していることが多いためだ。

根強い人気を持つインタビュー番組や経済番組があることも、ラジオが生き残っている理由だろう。

さて、そんなラジオから聞こえるさまざまな声を聞きながら、「この人はこんな人なんじゃないかな」と顔を想像している自分がいる。

性別はかなりわかりやすいが、声のかすれ具合から年齢を察し、言葉のなまりや話し方から人種を想像する。話しているテーマから髪形まで付け加えてしまう。何の根拠もないのに、話し手の顔を想像しているのだ。

しかし、この何の根拠もなさそうなことを、AIならば鋭く見抜く才能があるようだ。先ごろ発表されたMITの研究者による論文では、短い音声から声の主の顔をかなりの近さで推測することができるのだという。

論文に掲載されている写真を見て、驚いた。声の主の写真とAIが推測した顔の画像が、びっくりするほど似通っているのだ。「ここまでわかるのか」と、あぜんとする。

10万人分の顔と声の組み合わせ

この研究では、まずインターネットから抽出した何百万ものビデオを使って、顔と音声の組み合わせを学習させた。10万人以上の人の顔と声の組み合わせが使われている。

学習に際しては、人間がカテゴリーを指示してアノテーションを行うようなことはなく、AIが独自に学んでいったという。

顔については、顔認識技術で用いられる要素も含め、さまざまな観点からその構造が分析された。上唇の厚み、顎の幅、鼻の高さや幅などなどだ。なかには、唇歯音（しんしおん）と言って、上の前歯と下唇の摩擦によって生じる音を発する範囲なども含んでいる。

一方、音声は複雑な音声分析によって処理され、それが顔の特徴を組み立てていくという流れだ。

結果的に、このアルゴリズム『スピーチ2フェイス』は、ちょっと音声を聞くだけで、要素を選び出して顔の特徴を推測し、正面を向いた顔を再構築する。もちろん、声の主その人ではないものの、年齢や骨格がそっくりだ。よく見比べると、目の表情まで似ている。

ここまで推測できるのかと、ちょっと空恐ろしい気持ちになる。顔認識をするカメラがあらゆる場所にある街中では、もう顔をさらさないようにする方法を探すしかないと思っていたが、こんなAIが出てくると、うっかりと声も出せないではないか。

あまたある悪用されるシナリオ

この論文では、このアルゴリズムをどう使うかについては倫理的に考察が必要だと付け加えている。

一つには、AIが学習したのは顔の特徴なので、本当のアイデンティティは明らかでなく、また再構築した顔も実在する顔ではないと断っている。もう一つは、学習したデータは全人類を代表するものではなく、YouTubeの教育ビデオだったため、おのずと偏りがあるということだ。

さて、こんなAIはどのように利用するのだろうか。論文では、電話があった時に「こんな顔の特徴を持つ人からかかってきた」という画像を表示するような有用性があるとしている。

しかし、残念なことに、私としては悪用されるシナリオしか思い浮かばない。

ホテルにマイクを仕掛け、そこでの話し声から誰が泊まっているのかを推測する。採用の応募者をまず電話でインタビューし、特定の人種を外す。しかも、直接会っていないのだから人種差別をしたという証拠はないと言い張れる。裁判でアイデンティティを隠したい証言者の顔を明らかにしてしまうことも考えられる。

面白いAIなのに、どうも近い将来に嫌な成り行きが待っていそうな気がするのだ。

＊本連載は毎週火曜日に掲載予定です。

（文：瀧口範子、写真：www.csail.mit.edu）

食材や料理と飲み物の組み合わせ「ペアリング」を予測する...

NewsPicks Brand Design

Amazon Goの「レジなしショッピング」技術、背後...

NewsPicks Brand Design

注目のコメント

山崎俊彦
東京大学大学院情報理工学系研究科電子情報学専攻　教授
・2019年06月04日
ご参考。今月のCVPRで発表される予定です。

Speech2Face: Learning the Face Behind a Voice
https://speech2face.github.io/
今村茜
毎日新聞社記者
・2019年06月04日
音声から顔をつくりだすアルゴリズム。筆者の方は、悪用される可能性が強いのではとかかれていますが、多分現状のままではその予想が当たってしまうかもしれません。
ただ、技術には罪はなく、使う側の倫理の問題。今世界中で、倫理的なAI、ブラックボックスではなく判断過程を説明できるAI、trusted AI を開発すべきだ、との議論がなされています。政府や有識者だけでなく、マイクロソフトなど企業側も声をあげ、自主的な取り組みも広がっています。
技術の発達に、使う側の人間のマネージメントが間に合うかーー。間に合ってほしいと、心から思います。
Fujii Kenji
ヨーロッパのソフトウェアベンダーエンジニア
・2019年06月04日
声から顔を推定するアルゴリズム、エンタメ業界なら3Dのキャラから本当の声を逆推定するなんてこともできそうで面白いですが、他の方も指摘されてる通り、使う側の倫理観がモノをいいそうです。

これも他の方が言及されてますが、trusted AIについて。これのガイドラインは急務だと思っています。生まれたてのAIはまさしく子供なわけで、どのようにキャラクターが構築されていくかは、Tayの例が示す通り環境次第。これに対する一つの策は、よい教育の体系化とそのインプリメンテーションではないかと強く感じています。（教育の良し悪しを語るのはとてもセンシティブだとも思いますが。。。）