今、AIでもっともホットな領域

最近やたらと人工知能(AI)の話題が目につく。
グーグルは5月の開発者カンファレンスで、AIを使った新製品を相次いで披露した。ユーザーの代わりに電話をかける「グーグルデュプレックス」は、本物の人間なみの応答で来場者は驚嘆した。
トランプ政権はアマゾンやフェイスブック、マイクロソフト、エビディアを招いたAI会議を開催。イーロン・マスクはAIについてジョークを交わしたカナダ人ミュージシャンと付き合い始めたとか。とにかく世の中、右も左もAIの話でもちきりだ。
でも、「あなたのソフトフトウエア会社も機械学習に取り組んでいるんでしょうね」と言われたら、私は「ぜんぜん」と答える。真面目な話、本当にどうしようもないのだ。
今、AIでもっともホットな領域は機械学習だ。機械学習は、大量のデータ(画像、メール、楽曲など)を特殊なソフトウエアで解析して、何らかの意味を読み取り、「モデル」を構築する。
このモデルに、不完全なデータを読み込ませると、それを完全にする方法を提案する。別の言い方をすると予測する。
たとえば、再帰型ニューラルネットワーク(RNN)と呼ばれるアルゴリズムにアルファベット(26文字)を読み込ませると、アルファベットのモデルができる。そしてそのモデルに「ABC」という文字を読み込ませると、次は「D」と予測するというわけだ。
もう少しレベルを上げると、RNNにキャプションつきの写真100万枚を読み込ませて解析させる。そこにキャプションのない写真を1枚読ませて、キャプションをつけるよう命令する。あるいは大量のメールのやり取りを学習させて、そこに1通のメールを読み込ませ、返信の文章を提案させる。

普通のノートパソコンはパンク

現代人は四六時中ソフトウエアを使っているため、信じられないほど大量のデータを生み出している。それはとても人間が整理できる量ではないから、コンピューターを使って整理する。コンピューターに自分で物事を考えて決定を下すことはできないが、猛烈な処理能力がある。
グーグルやアップル、フェイスブック、マイクロソフト、アマゾン、それに金融機関といったビッグデータ保有企業がAIに投資する理由はたくさんある。だが最も重要なのは、これらの企業はすでに莫大なデータを持っているけれど、そこに意味を見出すプログラマーが足りないことだ。
機械学習はこの問題を解決して、新しいプロダクトの開発に必要な労力をおおいに節約できる。それなら、私が過去に書いたものすべてをRNNに読み込ませて、「ポール・フォードらしい」記事を1段落でも書かせることができるのだろうか──。
そんな好奇心(と怠惰な性格)から、私は自ら機械学習に学んでみることにした。
ところが、たちまち私は専門用語の壁にぶち当たった。RNN、LSTM(長短期記憶ユニット)、疑似アニーリング法(SA)、シグモイド関数……。専門用語は見慣れているはずの私もすっかり圧倒されてしまった。
それを乗り越えてもまだ問題がある。機械学習は驚くほど時間がかかるのだ。私たちはコンピューターの猛烈な処理能力(映画鑑賞とチャットと原稿書きを同時にできるほど)に慣れてしまったが、機械学習はそうはいかない。
機械学習のツールキットに、私がこれまでに書いた全記事を読み込ませて、何段落か書かせようとすると、私のノートパソコンはパンクしてしまった。それには少なくとも一晩、おそらく数日かかるというのだ。それなら自分で書いたほうが早い。

2000行の文章から学んだのは1語

でも、もうグーグルの「テンサーフロー(TensorFlow)」をダウンロードして、チュートリアルも全部読んでいたから、ギブアップするのは嫌だった。テンサーフローは、オープンソース・ソフトウエアとして公開されているグーグルの機械学習プログラミング環境だ。
あれこれ考えた結果、記事を読み込ませるのではなく、私がグーグルカレンダーにメモしたミーティングの名前を全部読み込ませてみたらどうだろうかと考えた。テンサーフローの作ったモデルは、それらしい名前のミーティングを推奨できるだろうか。
問題は、私がグーグルカレンダーに書き込んだミーティング名は「スタッフ配置」「パイプライン」「ジョンxポール」「オフィスのハッピアワー」などそれ自体がひどく暗号めいていることだ。
グーグルカレンダーからダウンロードしたミーティング名一覧を読み込ませ、さらにもう1度読み込ませてミーティングに招待する人を示させてみた。ところが「ビーム(beam)」なるものの設定を間違えてしまったところ、RNNは「パイプライン」という単語を何度も示すばかりだった。
だが、ここで興味深いのは、2000〜3000行の文章(機械学習の世界ではわずかな量だ)を読ませたところ、このシステムが学んだ単語はたった一つだったことだ。それでも私は、1歳の息子が「ネコ」と言った(ように聞こえた)ときと同じくらい、誇らしく思った。
アラン・チューリング(映画『イミテーション・ゲーム』で描かれた天才数学者)は1950年の論文で、コンピューターで子どものシミュレーションをすることを提案している。「おそらく子どもの脳は、文房具店で買ったばかりのノートのようなものだ。……メカニズムはほとんどなく、白紙だらけの状態だ」

クラウドベースの機械学習サービス

設定を変えて、もう一試してみよう。
50エポック(プログラムが訓練データを繰り返し学習する回数)学習させると、「BOOK」「Sanananing broces」「Talking Upgepteeelrent」といったフレーズが作られた。私はグーグルカレンダーに「Upgepteeelrent」なんて単語を書き込なだたことはないのだが……。
100エポック学習させると、「Broam Shappery」とか「DONKER STAR E5K」といったフレーズが出てきた。
何時間もたった。あまりにもミーティングのシミュレーションに熱中して、私は本物のミーティングに出席するのを忘れてしまった。
すごすご帰宅して、もっと性能の高い自宅のコンピューターに画像用半導体(GPU)をつけて試してみることにした。GPUは大量の演算を同時にできるから、ビットコインのマイナーや機械学習の世界で重宝されているチップだ。
ソーセージ製造機にたとえると、従来のマイクロプロセッサ(MPU)は、肉を入れると(命令)加工してソーセージを生産する(アウトプット)。これに対してGPUは、何千台もの製造機が同時にソーセージを生産するイメージだ。
だからいろいろなタスクを、従来よりも何十倍、いや何百倍もスピーディーにこなすことができる。
ところが何度やっても、うちのLinuxベースのコンピューターは、GPUを認識してくれない。だが、それでも万事休すというわけではない。
それならグーグルのクラウドサービスでTPU(テンサー処理ユニット)をレンタルすることもできる。マイクロソフトのクラウドでも月30ドルで機械学習サービスを提供しているし、アマゾンも仮想マシンを加速する「エラスティックGPU」を1時間5セントで提供している。
グーグルならTPU付きコンピューターをレンタルできるが、料金は1時間6ドル50セント(課金は1秒単位)。アマゾンの130倍だ。もし莫大な量の衛星写真やMRIの画像を処理するなら、それだけ投資する価値はあるのかもしれないが、私のささやかなプロジェクトに必要とは思えない。

オタクの好奇心をくすぐる奥深さ

再びノートパソコンに戻った私は、プログラミングに必須のスキル、つまり「ズル」を活用することにした。文字ベースで学習させていたニューラルネットワークを、単語ベースに変えたのだ。すると文字の順番を学習する必要がなくなったRNNは、それらしいミーティング名を示すようになった。
2000エポック後、「Paul and Paul!」とか「Sarony Hears」、「Check-in」といったフレーズが示される様になった。ただし、ほとんどはまだ「Sit(Contench: Proposal/Gina Mcconk)といった意味不明なものだった。
そうこうするうちに、機械学習が盛り上がっている理由が私にもわかってきた。やってもやっても、結果の精度を上げるために調整する部分が出てくる。
現在テスラのAI部門を率いるアンドレイ・カルパシーは、大学の博士課程時代の2015年に『RNNの非合理的な有効性』という論文で「私は長年RNNを訓練して、何度となくそのパワーと力強さを目撃してきた。それでもその魔法のようなアウトプットに今も笑わされるときがある」と書いている。
機械学習には、世界を理解して少しばかり制覇したいというオタクの欲望をかきたてる要素がある。現実をインプットとアウトプットに単純化して、それを再びミックスするのも魅力だ。
私は、家族も会社も忘れて、クラウドTPUにもっと多くのデータを読み込ませて、もっと多くの驚くべきモデルを作ることに没頭したくなった。
機械学習のモデルは訓練すればするほど賢くなる。その様子をみていると、映画『ロッキー』のワンシーンが思い浮かんだ。ロッキーがフィラデルフィア美術館前の階段を駆け上がり、振り返って両腕を上げるあのシーンだ。ロボット・ロッキーもデータと戦い、ついに世界を制覇するのだ──。
2万エポックの学習をさせたところで、私は帰宅することにした。だが、翌朝見てみると、結果の精度はちっとも上がっていない。むしろ悪化していた。
「Knight Days」「Happy Sales」「Company and home catchup」「Chit Planning personal bus. Pitch Lunch: Wendy no get」「Tyler chat Deck」など、相変わらず意味不明なフレーズだらけだ。
とりあえずここまででわかったことは、特別な機器を使わなければ機械学習は恐ろしく時間がかかること、そして私の人生はかなりヒマであることだ。優れた予測モデルを構築するためには、私は何百万、いや何十億というミーティングに出席しなければいけなかったのだ!

機械学習ツールはまだ調整が必要

私はソフトウエア業界の人間だ。機械学習は大きな新しい波だが、私自身は心配していないし、会社を大改革する予定もない。
機械学習は重要だが、まだ一般人が使いこなす準備はできていない。すべてのソフトウエアがそうであるように、機械学習ツールもまだ人間による教育と調整が必要なのだ。
それに私が心配しても仕方がない。ビッグプレーヤーは大量のデータ、ソフトウエア、そしてエンジニアを持ち、圧倒的な優位にある。
グーグルにお金を払いたくない? それならアマゾンの機械学習プラットフォーム「Amazon SageMaker(アマゾン・セージメーカー)」にすれば、1時間24ドル48セントでGPUが8個付いたマシン(記憶容量は616ギガ)を使える。
最大規模のテクノロジー企業にとって、機械学習はほとんど無限の可能性を秘めている。オンライン広告会社グーグルにとっては、なおさらだ。
グーグルは本来広告会社ではないが、実態はそうだ。その市場価値は約7500億ドルに上る。グーグルは大量のデータを持つ。そして機械学習は、ビッグデータを実に効率的にプロダクト化することができる。
私がグーグルだったら、機械学習でわかったことを利用して、より賢く、より優れ、より効果的な広告商品を作るだろう。グーグルの傘下にある幅広い文化的媒体(YouTubeや地図、そしてウェブそのもの)の検索精度を高め、アンドロイドフォンも使いやすくするだろう。
さらに、私がグーグルだったらテンサーフローを解放して、優秀なエンジニア(採用コストが高い)を大量に招き寄せて、彼らが「グーグルで大規模な機械学習をやりたい」と思うように仕向けるだろう。
さらにマシンビジョン、翻訳、自動取引サービスを中心とする新しい商品を生み出して大儲けするだろう。こうしたことは、機械学習が必然的に安く簡単になる前に成し遂げなくてはならない。

大量のデータを持つ優位性

だが、もし世界中の人が機械学習を使えるようになっても、グーグルには莫大な元データがある。これらのデータは取得するのに莫大なコストがかかる。
グーグルなら地図情報をすべて自動運転車に搭載したり、過去の会話すべてを元にスマートフォンに会話をしてもらったり、過去のメールに基づき自動返信を作成してもらうことも可能だろう。
また、私がグーグルだったら、機械学習用のクラウド・インフラを提供して、グーグルのツールをこの世界の標準にして、アマゾンからトップの地位を奪うだろう。
こうした措置の一部は問題になるだろう。警察は犯罪を働きそうな人を調べられるし、信用機関は返済不能に陥りそうな人を予測でき、政府は国民をフィルターにかけて怪しい人のリストを作れるようになる。そしてグーグルは、こうしたことすべてのインフラになるのだ。
最悪でも、グーグルは巨大な成功を収めるだろう。最高にうまくいけば、人間の生活にコンピューターが深く組み込まれている新しいデジタル世界の基本技術になるだろう。私たちが現在目にしているのは、その新しい世界のごく一部にすぎない。
原文はこちら(英語)。
(執筆:Paul Ford/CEO, Postlight、翻訳:藤原朝子、写真:charles taylor/iStock)
©2018 Bloomberg L.P
This article was translated and edited by NewsPicks in conjunction with IBM.