人工知能が広く使われるようになるにつれて、深層学習モデルに誤った判断をさせて人々に被害を及ぼす「敵対的攻撃」のリスクが高まっている。マサチューセッツ工科大学(MIT)の研究者らは、敵対的攻撃を難しくする新たな方法を発表した。
アルゴリズムの正常機能を妨げる
MITテクノロジーレビューでは以前、敵対的サンプル(adversarial examples)の概念を紹介したことがある。深層学習モデルに入力されると、アルゴリズムが正常に機能しなくなるような些細な変更を加えたデータのことである。
この3月に開催されたMITテクノロジーレビュー主催の年次カンファレンス「EmTechデジタル」では、カリフォルニア大学バークレー校のセキュリティ専門家、ドーン・ソング教授がこの話題を取り上げ、ステッカーを使って自動運転車に停止サインを時速約72キロメートルのサインと認識させる方法や、巧みに作ったメッセージを使ってクレジットカード番号のような重要な情報をテキストベースのモデルに出力させる方法について述べた。
4月には同様に、ホワイトハット・ハッカー(悪意を持ったハッカーの攻撃を防ぐハッカー)がやはりステッカーを使ってテスラ車のオートパイロット機能を惑わせ、反対車線に誘導した方法について発表している。
近年、深層学習がますます人々の生活に浸透するにつれ、研究者は敵対的サンプルが単純な画像分類器からがんの診断システムまであらゆるものに及ぼす影響を説明してきた。
中には害のないものもあるが、命に関わることもある。だが、その危険性にもかかわらず、敵対的サンプルはあまり理解されていない。研究者たちは、この問題をどう解決するのか、そもそも解決できるのかどうか、頭を悩ませてきた。
マサチューセッツ工科大学(MIT)の新しい論文により、この問題を克服する可能性のある方法が示された。この方法に従えば、敵対的攻撃を成功させることがかなり難しくなり、はるかに堅牢な深層学習モデルを作り出せるかもしれない。
このことを理解するために、まず敵対的サンプルの基礎から見て行こう。
敵対的サンプルの興味深い特性
これまで何度も述べてきたように、深層学習の力は、データ内のパターンを認識する卓越した能力から来ている。
ニューラルネットワークにラベル付けした何万枚もの動物写真を入力して、どのパターンがパンダに関連づけられ、どのパターンが猿に関連づけられかを学習させる。すると、ニューラルネットワークは、学習したパターンに基づいて、訓練では使われなかった新しい動物たちの画像を識別できるようになる。
しかし、深層学習モデルには脆いところもある。画像認識システムは、見たものを概念的に深く理解するのではなく、ただピクセルのパターンに頼っているだけなのだ。パターンを適切に混乱させるだけで、システムを容易にだまし、まったく別の物だと認識させることが可能だ。
ここに古典的な例がある。ちょっとしたノイズをパンダの画像に加えると、システムはほぼ100%の確信度でテナガザルだと識別する。このノイズが敵対的攻撃(adversarial attack) である。
数年前から研究者たちは、特にコンピュータービジョン・システムにおいて、このような現象を見い出している。しかし、そういった脆弱性を取り除く方法はよく分かっていない。
実際、5月上旬に開催された大規模なAI研究会議「ICLR2019(International Conference on Learning Representations:表現学習に関する国際会議=アイクリア)」で発表されたある論文は、敵対的攻撃は避けられないのではないかと問いかけている。
どれだけ多くのパンダの画像を画像分類器に入力しても、システムの判断を誤らせる何らかの小さな乱れは常に存在するように思われる。
しかし、MITの研究者らによる新論文は、研究者たちは敵対的攻撃について誤解してきたと説明する。人々は、システムに入力するより多くのより良い訓練データを蓄積する方法を考えるより、システムの訓練の仕方をもう一度根本的に考え直すべきだという。
むしろ、敵対的サンプルの興味深い特性を見つけ、なぜそれが非常に効果があるのか把握すべきであるとしている。
システムに誤った判断をさせる、一見でたらめのようなノイズやステッカーは実は、画像システムが特定の対象に強く結びつけて学習した非常に精密で極めて細かいパターンを利用している。
要するに、システムがパンダを見てテナガザルと認識した時、システムは誤作動しているのではない。実はシステムは、訓練中にパンダの写真よりもテナガザルの写真にはるかに頻繁に発生した、人間には認識できないピクセルのパターンを見ているのだ。
モデルの訓練方法を変える必要性
今回の論文の研究者は実験によって、このことを詳しく説明した。
彼らは、標準的な画像分類器が猫と誤認識するようにわずかな変更を加えた犬の画像のデータセットを作った。次に、それらの画像に「猫である」と誤ったラベルを付けて、新しいニューラルネットワークをゼロから訓練した。訓練を終えたニューラルネットワークに本当の猫の画像を見せると、すべて正しく猫だと識別した。
このことが示すのは、すべてのデータセットには、2種類の相関パターンがあるということだ。
猫の画像におけるひげや、パンダの画像における毛皮の配色など、データの意味と実際に相関関係にあるパターンと、訓練データにはたまたま存在したが、他のコンテキストには一般化されないパターンだ。敵対的攻撃に利用されるのは、後者の「誤解を招く」相関関係だ。
たとえば、上の画像では、ニューラルネットワークが誤ってテナガザルに関連付けた、目には見えないピクセル・パターンを、パンダの画像に埋め込んで攻撃に利用している。誤解を招くパターンを認識するよう訓練された認識システムは、そのパターンを見つけてテナガザルを見ていると思い込む。
つまり、敵対的攻撃の危険性を排除するには、モデルの訓練方法を変える必要があるということだ。
最近では、画像の中の物体を識別するのに、どちらの相関関係を使用したいかをニューラルネットワークに選ばせるようになっている。しかし、結果として、機械が見つける相関関係や、その関係が本物なのか誤っているのかを、人間が制御することはできない。
その代わりに、本当のパターン、すなわちピクセルの意味に結びつけられたパターンのみを記憶するようモデルを訓練すれば、理論的には、悪用されて人々に害を及ぼすことがない深層学習システムを作れるはずだ。
研究者が本当の相関関係のみを使ってモデルを訓練し、このアイデアをテストしたところ、実際にモデルの脆弱性は緩和された。敵対的攻撃は50%の確率しか成功しなかった。一方、本物と偽物の相関関係の両方で訓練したモデルは、95%の確率で敵対的攻撃が成功した。
言い換えれば、敵対的サンプルの被害は避けられるようだ。しかし、完全に排除するにはさらなる研究が必要だ。
原文はこちら(英語)。
(執筆:カーレン・ハオ/米国版 AI担当記者)
This article is provided by MIT TECHNOLOGY REVIEW Japan. Copyright © 2019, MIT TECHNOLOGY REVIEW Japan. All rights reserved.
この記事は、株式会社KADOKAWAが、米Technology Review社との許諾契約に基づき、再許諾しました。一部の見出し、写真等は株式会社ニューズピックス等の著作物である場合があります。