フェイスブックのAI研究者グループは、深層学習のアルゴリズムを使って、あらゆる人の声を本物そっくりに複製できる音声合成システムを開発した。現状のシステムよりもずっと人間に近い形でやり取りを自動化できるようになる可能性がある。
リアルな音声クリップを作り出す
機械の音声にはがっかりさせられる。最高の音声読み上げシステムでも品質は機械的であり、人間が使うイントネーションの基本的な変化がない。代表的な例として、これまで多く複製されてきたスティーヴン・ホーキング博士の音声合成システムがあげられる。
近年の機械学習における大きな進歩を考えると、このことは驚きに値する。確かに、顔や物体を認識して、それらのリアルな画像を再現することに長けているこの技術は、音声に関しても同様に機能しそうだ。しかし、現実はそうではない。
少なくとも、これまでは上手くいかなかった。
そこで、フェイスブック人工知能(AI)研究所のメンバーであるショーン・ヴァスケスとマイク・ルイスの出番だ。2人は音声読み上げシステムの限界を克服し、完全に機械から生成された非常にリアルな音声クリップを作り出す方法を編み出した。
彼らが作った「メルネット(MelNet)」と呼ばれる機械は、人間のイントネーションを再現するだけでなく、実際の人物と同じ声を再現できる。このチームは特に、ビル・ゲイツを真似て話すよう機械を訓練した。
ヴァスケスとルイスの研究は、人間とコンピューターの間のよりリアルな対話の可能性を開く一方で、フェイク音声コンテンツの新時代到来に対する不安を引き起こす。
これまでは音声波形データに焦点
まずは背景的な話をしよう。
本物の人間のようにテキストを読み上げるシステムの進歩が遅いのは、試みが欠如していたからではない。これまで多くのチームが、大量の音声データベースを使い、深層学習アルゴリズムを訓練して、実際の人間のような音声パターンを再現する試みをしてきた。
このアプローチにおける問題はデータの種類にあると、ヴェスケスとルイスは話す。
これまでのほとんどの取り組みは、音声波形の記録データに焦点を当ててきた。音声波形の記録データでは、秒単位の録音において、音の振幅が経時的にどう変化しているかを、何万というタイムステップで構成された音声データにより示している。
音声波形は、さまざまに異なる時間尺度で特定のパターンを示す。例えば数秒間の発話では、波形は単語の配列に関係する特徴的なパターンを示す。しかし、マイクロ秒単位では、波形は声の高低と音色に関係した特性を表す。さらに、別の尺度では、波形は話し手のイントネーションや音素構造などを示す。
こうしたパターンについての別の考え方として、あるタイムステップと次のタイムステップにおける波形の相関性を見ることがある。つまり、ある一定の時間尺度において、ある単語の最初の音は、それに続く音と相関性がある。
深層学習システムは、こうした種類の相関性の学習と再現を得意とする。問題は、相関性が多くの異なる時間尺度に対して作用する一方で、深層学習システムは限られた時間尺度においてしか相関性を学習できないことにある。「バックプロパゲーション」と呼ばれるアルゴリズムを深層学習システムが採用しているためだ。
バックプロパゲーションでは、深層学習システムが遭遇する例に基づいてネットワークのノード間の連結強度を繰り返し調整することで、システムの性能を向上させる。
その反復率によって、相関性を学習できる時間尺度が制限される。このため、深層学習ネットワークは長時間、あるいは短時間の音声波形における相関性は学習できるが、その両方を学習することはできない。深層学習システムが会話の再現を不得手とするのは、それが理由である。
「スペクトログラム」を使って訓練
ヴァスケスとルイスは別のアプローチを採用している。彼らは音声波形の代わりに、スペクトログラムを使って深層学習ネットワークを訓練している。
スペクトログラムは、音声周波数の全体的な分布および時間経過による変化を記録したものだ。言うなれば、波形振幅と言う一つのパラメータの経時的変化を捉えるが、スペクトログラムはさまざまな周波数における広範におよぶ変化を捉える。
つまり、スペクトログラムのデータ表現には、音声情報がより濃密に詰め込まれている。
「スペクトログラムの時間軸は、波形の時間軸よりも桁違いにコンパクトです。波形における何万ものタイムステップにおよぶ依存性は、スペクトログラムではわずか数百のタイムステップに相当します」とヴァスケスとルイスは述べている。
これにより、深層学習システムは相関性をより把握しやすくなる。「この性質により、スペクトログラムモデルは、複数秒にわたる制限のない音声や音楽サンプルを一貫して生成するのに適しています」
結果は素晴らしいものだ。TEDの一般的なスピーチを使って訓練したメルネットは、TEDに出てくる話し手の声を再現して、数秒間、何かしら発話することができる。
フェイスブックの研究者グループはメルネットの柔軟性を示すために、ビル・ゲイツのTEDでのスピーチを使ってメルネットを訓練し、ゲイツの声でさまざまなフレーズをランダムにしゃべらせている。
メルネットは「We frown when events take a bad turn(事態が悪化したら、私たちは眉をひそめます)」や「Port is a strong wine with a smoky taste(ポートワインはスモーキーな味わいのある度数強めのワインです)」などと話す。その他の例はこちらを参照いただきたい。
模倣した声を悪用するシナリオも
もちろん限界も存在する。
通常のスピーチには、さらに長い時間尺度にわたる相関性が含まれる。例えば人間は、話が何十秒あるいは何分と進むにつれて、イントネーションの変化を使って話題の変更やムードの変化を示唆する。フェイスブックの機械には、まだその能力はないようだ。
つまり、メルネットは本物の人間さながらのフレーズを作成することができるが、より長い文章や段落、あるいはストーリー全体の再現まではできない。それはすぐに達成できるような目標ではなさそうである。
とはいえ、この取り組みは、人間とコンピューターとのやり取りに大きな影響をもたらす可能性がある。
多くの会話は短いフレーズのみで成立する。特に電話オペレーターやヘルプデスクは、比較的短いフレーズの範囲で対応可能である。つまり、このテクノロジーによって、現状のシステムよりもずっと人間に近い形でやり取りを自動化できる可能性がある。
現時点では、ヴァスケスとルイスは可能性のあるアプリケーションについては口を閉ざしている。
これまでと同様、特に人間を確実に模倣できるような自然の音声を発する機械には、潜在的な問題が存在する。
それほどの想像力を要さずとも、このテクノロジーを悪用したシナリオは思いつく。そして、そのような理由から、このテクノロジーもまた、答えよりも多くの倫理的な疑問を提起するAI関連の進歩の一つなのだ。
(参照:arxiv.org/abs/1906.01083 : MelNet: A Generative Model for Audio in the Frequency Domain;メルネット:周波数領域における音声の生成モデル)
原文はこちら(英語)。
(執筆:エマージングテクノロジー フロム アーカイブ/米国版 寄稿者)
This article is provided by MIT TECHNOLOGY REVIEW Japan. Copyright © 2019, MIT TECHNOLOGY REVIEW Japan. All rights reserved.
この記事は、株式会社KADOKAWAが、米Technology Review社との許諾契約に基づき、再許諾しました。一部の見出し、写真等は株式会社ニューズピックス等の著作物である場合があります。