2021.03.04

国家による検閲が人工知能の“判断”に影響する？「中国の事例」の研究から見えてきたこと

国家による検閲が人工知能（AI）のアルゴリズムに影響を及ぼし、それによってAIによる“判断”の結果が変わる可能性がある──。そんな研究結果が、このほど中国語のオンライン百科事典を対象にした調査で明らかになった。この結果からは、AIを巡るさまざまな課題が浮き彫りになってくる。

ビジネスや教育機関、政府の活動がグローバル化しており、人工知能（AI）が国境という壁にぶつかることはほとんどない。だが、新たなアイデアやアルゴリズム、人材を求めるゴールドラッシュが続く現代に生まれたAIプログラムでも、国ごとの文化的な差異が顕著に現れる場合がある。

こうしたなか、政府による検閲がAIのアルゴリズムとそれを使ったプログラムにどのような影響を及ぼすのかが、このほど新たな研究から明らかになった。

カリフォルニア大学サンディエゴ校（USCD）の政治学教授マーガレット・ロバーツと、同大学の博士課程に在籍するエディー・ヤンが選んだ調査対象は、ふたつある。中国語版の「Wikipedia」と、同国の検索大手バイドゥ（百度）が運営するオンライン百科事典「百度百科」を使って訓練したAIの言語プログラムを用意し、両者を比較したのだ。

中国語版のWikipediaは、中国の国内からは利用できない。一方、百度百科には共産党政府による検閲がかかっている。なお、バイドゥにコメントを求めたが、回答は得られていない。

今回の研究の目的は、検閲がある場合にAIはそれも学習するのかを調べることだった。もしそうだとすれば、言語プログラムにも検閲が反映され、例えばチャットボットや音声アシスタント、翻訳プログラム、オートコンプリート機能などによる出力結果に影響が出る可能性がある。

ふたつの元データから生まれた相違

研究の対象となった言語プログラムは、さまざまなテキストの特定の単語がどのように使われているのかを学習する。異なる単語を物理的空間でつながったノードとして捉え、それぞれの単語が近ければ、その類似性も高いと判断するのだ。例えば翻訳プログラムの場合、知らない単語が出てきたとき、翻訳元と翻訳先の両方の言語でその単語の物理的位置関係から意味を類推できる。

USCDの研究者たちは、異なるデータセットで訓練された2種類のアルゴリズムには大きな違いが現れることを発見した。そして、この違いは検閲の結果であると考えられると指摘している。

例えば、中国語版Wikipediaで訓練したアルゴリズムは、「民主主義」を「安定」のような肯定的な言葉と結びつける傾向があった。これに対し、百度百科で訓練したアルゴリズムで「民主主義」は、「混乱」のような単語に近いものとして捉えられていた。

ロバーツとヤンは、この2種類のAIアルゴリズムを使って、ニュースの見出しから記事のニュアンス（明るいニュースか暗いニュースか）を推測する言語プログラムを作成した。すると、中国語版WikipediaのAIが「選挙」「自由」「民主主義」といった単語を含む見出しに肯定的なスコアを付けた一方で、百度百科のAIは「監視」「社会統制」「中国共産党」などの単語があるとスコアが高くなる傾向があった。

なお、今回の研究結果は、3月3日（米国時間）から10日まで開催されているカンファレンス「公平性、説明責任、透明性に関するACM会議（ACM FAccT）」で発表される予定だ。

国家がAIの訓練に関与する可能性

AIがどのようにして人種や性別に基づいた偏見を含んでしまうのかは、最近の研究によって明らかになりつつある。例えば、AIを訓練するためにインターネットや古い書籍から取得したテキストデータを使用すると、AIはテキストの作者の偏った見方も学んでいく。

例えば2018年には、グーグルの研究者たちが画像認識アルゴリズムに文化的偏見があることを発見している。一例を挙げると、「結婚」というタグ付けをするときに西洋風の結婚式の写真しか選ばれなかったという。

限定イヴェントにも参加できるWIRED日本版「SZメンバーシップ」会員募集中！

次の10年を見通すためのインサイト（洞察）が詰まった選りすぐりの記事を、週替わりのテーマに合わせて日々お届けする会員サーヴィス「WIRED SZ メンバーシップ」。限定イヴェントへの参加も可能な刺激に満ちたサーヴィスは、無料トライアルを実施中！ →詳細はこちら

ロバーツは研究対象となった中国語AIの違いについて、必ずしもすべてが政府の検閲によるものではないかもしれないと説明する。自己検閲や、中国語版Wikipediaと百度百科の記事を書いた人たちの文化的差異が反映された部分もあるだろう。

一方でロバーツは、国家の政策がAIシステムにバイアスを生じさせる可能性があると認識することは重要だと指摘する。「機械学習のデータセットに政府の影響がどのように現れるのか理解する上で、今回の研究は出発点になると考えています」

ロバーツはまた、将来的に政府がAIの訓練に何らかの影響を及ぼそうとする可能性があることを念頭に置くべきだとも語る。彼女は、国家が検閲や特定の価値観を効率的に打ち出していくために、AIシステムの開発に介入する恐れもあると考えている。

原因は検閲か、文化的なバイアスか

これに対して、トロント大学教授で計算言語学と自然言語処理を研究するグレアム・ハーストは、ロバーツたちの研究の方法論に関して留意すべき点があると指摘する。中国語版Wikipediaと百度百科の違いを徹底的に掘り下げなければ、ふたつのアルゴリズムの差異は検閲によるものだと結論づけることはできないというのだ。

例えば、中国語版Wikipediaが、反中国的または民主主義を過度に称賛するような内容を含んでいる可能性はある。さらに、ハーストはニュースの見出しを判断する言語プログラムについて、分析がどのように進められたか、バイアスがかかっていないかといったことが不明確だと指摘している。

ただ、今回の研究は概して肯定的に受け止められている。ユタ大学教授でAI倫理の専門家のスレッシュ・ヴェンカタスブラマニアンは、「ある意味では驚きではありません」と語る。ヴェンカタスブラマニアンはACM FAcctの発起人のひとりだが、西洋世界のニュースを使って訓練されたAIが逆に中国に対する偏見を含む場合もあると指摘する。

彼は「いずれにしても、こうしたことが起きていると示す研究は重要です」と言う。「そうすれば、こうしたバイアスがどのように表れるか、どう測定するかといった議論を始めることができますから」

※『WIRED』による人工知能（AI）の関連記事はこちら。

AIが浮き彫りにしたジェンダーバイアス：米下院議員の画像にタグ付けさせる実験から見えてきたこと

グーグルの画像認識システムは、まだ「ゴリラ問題」を解決できていない──見えてきた「機械学習の課題」

人工知能が「差別主義者になる」のを防ぐためにできる、4つのこと

お知らせ：Thursday Editors Lounge 次回のThursday Editors Loungeは1月20日（木）に開催いたします。ゲストは古田秘馬（プロジェクトデザイナー／umari代表）。詳細はこちら。

限定イヴェントにも参加できるWIRED日本版「メンバーシップ」会員募集中！

次の10年を見通すためのインサイト（洞察）が詰まった選りすぐりのロングリード（長編記事）を、週替わりのテーマに合わせてお届けする会員サーヴィス「WIRED SZ メンバーシップ」。毎週開催の会員限定イヴェントにも参加可能な刺激に満ちたサーヴィスは、1週間の無料トライアルを実施中！詳細はこちら

TEXT BY WILL KNIGHT

TRANSLATION BY CHIHIRO OKA