2023/3/31

サイバーが採用したデータクラウドの変革力

NewsPicks NewsPicks Brand Design 編集長 / NewsPicksパブリッシング 編集者
 日々の経済活動から生まれ続ける莫大なデータを、ビジネスに活かせる企業こそ、時代の覇者となる──。そう理解してはいても、データ活用は思うように進まない。
 実は、その陰にはビジネスサイドから見過ごされがちな問題がある。
 IT部門、エンジニアたちの疲弊だ。彼らはランニングコストをマネジメントしながらも、データを利用するビジネス部門の要求にスピーディーに応えるべく、日々格闘している。
 しかし専門性の高い領域であるだけに、その苦労は外からは見えにくい。
 データ活用の領域で先進するあのサイバーエージェントにおいても、同じ問題が起きていた。
 しかし、たった一手で、事態は一変したという。それは「データ基盤」を司るデータクラウド「Snowflake on AWS」の導入だ。
 アマゾンウェブサービス(以下、AWS)は、言わずと知れた世界中の幅広いユーザー企業に採用されているクラウドプラットフォームである。
 片やSnowflakeと言えば、2020年にアメリカのソフトウェア業界で過去最高値での7兆円(当時)を超える時価総額で大型上場したソフトウェア企業。多くのNewsPicks読者にとって、記憶に新しいだろう。
 急成長のクラウドベースのデータウェアハウスを提供するSnowflakeは日本市場にも本腰を入れ、すでにデータ活用が要となる大手企業が次々と導入している。サイバーエージェントもその一社だ。
 障害対応やデータ鮮度の劣化、データのサイロ化、伝言ゲームの発生など──「データ基盤」を巡る諸問題を解決する糸口を、サイバーエージェントのIUデータサイエンスセンターでマネージャーを務める杉山仁則氏に聞いた。
INDEX
  • ビジネスの成長にデータ基盤が追いつかない
  • データ活用を巡る伝言ゲーム
  • コスパとセキュリティというメリット
  • フレンドリーライバルAWSとSnowflake
  • エンジニアの育成という副次的な効果

ビジネスの成長にデータ基盤が追いつかない

「データ基盤をSnowflake on AWSにして、ずいぶん楽になりました」
 杉山氏はそう語る。
 サイバーエージェント傘下のタップルとCAMの2社では、日々膨大なデータが蓄積されていく。
※タップル:累計会員数が1700万人(2022年12月)を突破したマッチングアプリ「タップル」を運営するサイバーエージェントのグループ企業
※CAM:エンタメコンテンツ、ビジネスバラエティメディア、ライフスタイルメディアを主軸に30以上のサービスを展開するサイバーエージェントのグループ企業
 とくにマッチングアプリを運営し、会員数1700万人を擁するタップルでは、行動ログの1テーブルだけでも、ざっと1日あたり1億5000万行ほど。文字通り桁外れのデータ量である。
 その莫大なデータを効率的に扱う方法を検討し、CAM、タップルを含めたサイバーエージェントグループ7社からなる統括組織であるIUの管轄内で技術的なシナジーを生む仕組みを考える。それが杉山氏に課されたミッションだった。
 たとえばタップルの場合、ほんの少しユーザー同士のマッチング率が上がるだけで、事業に莫大なインパクトをもたらす。つまり「データ分析に基づくマッチングの最適化」が、ビジネス部門にとって重要度の高いミッションなのだ。
「正直言って、最低限の水準のデータ基盤を整えるだけでも、いっぱいいっぱいで。ビジネスのグロースに対して、データ基盤の継続性がありませんでした」
 IT部門としても、彼らの要求にできるかぎり応えたい。しかし、対応できる人数は限られていた。ビジネス部門のハイレベルな要求に応えられないばかりか、水面下で身を削り続ける状況だったという。

データ活用を巡る伝言ゲーム

 障害対応やデータ鮮度の劣化、データのサイロ化、伝言ゲームの発生……。起きていたのは「データ基盤」を巡る諸問題だ。
 一つずつ問題をひもとこう。
 一つは、データアクセスの際の障害対応だ。原因の大元は、データを格納しているクラウドサービスの利用体系にあった。このサービスは、データ量に応じた課金となっている。仮に利用者がツールの操作を誤り、大量のデータを取得すると、それに比例した料金が請求される。
 よってIT部門では想定外の費用増加を避けるべく、データを1日ごとに別途保存する仕組みを作った。だが、データを更新する処理に、週に2〜3度の障害が起き、そのたびに2人のエンジニアが3時間ほど夜間作業にあたる。月に直すと、50〜60時間分の人件費がプラスで発生する計算だ。「コスト抑制を狙った結果、別のコストが発生する」という皮肉な状況だった。
 おまけに1日ごとにデータを保存するこの仕組みでは、データの鮮度も落ちる。ビジネス部門からすると、ユーザーの行動をできるだけ早く見たい。しかし、きょうの結果は翌日にならないと見られない。スピードが求められる現場としては、大きな問題だった。
 データを活用する際に、多くの企業がぶつかる課題「データのサイロ化」がここでも立ちはだかる。
※データのサイロ化:農村地帯で農産物や家畜の飼料を大量に保管する、背の高い「サイロ」になぞらえた、組織間でデータが分断され有効活用しにくい状況のこと。縦割りの組織構造だと、それぞれが独自のアプリケーションやデータ形式で自己完結するシステムを構築して、データの連携が取れないサイロ化に陥る
 タップルはサービス開始から約9年で、フェーズに応じてデータ基盤を積み上げていった経緯がある。リリース当初はサイバーエージェントグループのデータ基盤を利用することで開発スピードを上げていた。そして独自のデータ集計をすることでサービスグロースを狙うフェーズでは、タップル内でデータ基盤を構築した。
 サービスは成長していったが、その弊害としてあちこちに用途別のデータが散らばる状態になっていった。
 さらにデータ分析を巡るコミュニケーションの課題が社内で発生していた。
 ビジネス部門・BI部門・IT部門で生じていた伝言ゲームがこれだ。
※BI(ビジネスインテリジェンス):データマイニング、データビジュアライゼーション、データツールなどを組み合わせて、組織がよりよい事業の意思決定を行えるように支援する組織のこと
 これは明らかなコミュニケーションロスだ。おまけにBI部門が苦労して作ったダッシュボードが使われていない。ビジネス部門とデータの距離が遠く、ビジネスに十分活かしきれていない状態だった。
 しかも、BIツールは有料。人によっては月1度のぞくぐらいであるのにもかかわらず、月々ライセンス料を支払う必要がある。
 では、どうするか。杉山氏は「Snowflake on AWSを使ってみよう」とひらめいた。Snowflakeには付属のBIツール「Snowsight」もある。
 多くの人が知るとおり、AWSはグローバルでシェアNo.1を誇るクラウドプラットフォームである。サイバーエージェントでも多く利用実績がある。
 そこで、現在使っているデータウェアハウスに代わり、Snowflakeが稼働する。
 なぜSnowflakeか。サイバーエージェントには、AI事業部がある。
 彼らはSnowflakeをすでに導入しており、メリットを情報共有してくれていた。多様で巨大なデータを扱う部署ですでに実績があり、しかも評判がいい。
 まずはCAMに導入し、そこで使えるようならば、タップルにノウハウを横展開しよう──杉山氏はそう考えた。
 AWSとSnowflakeの接続は思いのほか簡単で、社内のエンジニアでドキュメントを見ながら進めていくだけで瞬時にできた。

コスパとセキュリティというメリット

 果たしてSnowflake on AWSの導入で、状況はどう変わったのか。
 Snowflake活用のメリットについて、事前事後で対比した次の図を見てほしい。
 中でも恩恵を感じているのはどこか。
 杉山氏は「データを取り出すスピードがコントロールできるのはありがたい」と語る。
 以前使っていたデータウェアハウスでは、データの取得にかかる時間は変えられなかった。しかし、Snowflakeでは利用したいマシンパワーを設定した後は、データの処理にかかる時間での課金となっている。
 したがって、マシンパワーの設定を調整すれば、コストが制御できるのだ。
 そもそもSnowflakeは、次の図のようにクラウドに特化して作られたデータウェアハウスだ。
 Snowflakeは「クラウド上の無限のCPUと、無限のストレージを使って、自由自在に拡大したり、縮小したりできるデータウェアハウス」という発想で、「マルチ・クラスター/シェア・データ」という独自のアーキテクチャが採用された。
 CPUが自在に拡張できる設計だからこそ、利用時間あたりの課金体系が可能となっている。
 さらに、セキュリティ面でも安心感がある。繊細なユーザーデータを扱うタップルでは、その取り扱いに細心の注意と厳重な管理が求められる。
「タップルでは、ユーザーに関する非常に繊細なデータを取得しています。どこまでのデータを、誰に見せるか──Snowflakeのダイナミックデータマスキングという機能を使えば、個人情報などのデータに対して自動でマスキングできる。また、ユーザーの権限ロールを細かく設定でき、堅牢に管理できる。そのセキュリティの高さがタップルとの親和性を感じます」と杉山氏は言う。
 今回の改革で費用コスト、オペレーションコストが圧縮され、社内各部門が自分たちの本分に集中できる体制が整った。
 これまではすべてが後手後手に回っていたが、現在は前に進むための取り組みができる。IT部門でも障害対応などに時間が取られなくなり、新しい機械学習モデルの開発などに着手できるようになった。

フレンドリーライバルAWSとSnowflake

 CAMの問題を一気に解決した「Snowflake on AWS」。しかし、製品ラインナップから想像がつくとおり、AWSとSnowflakeは、ある意味では競合にあたる存在といえる。
 その2社がなぜ組むのか。サイバーエージェントの改革にかかわったAWSの吉田成利氏とSnowflakeの浅野翔太氏は、「競合という側面は否めないものの、それ以上に重要なパートナー」と互いに捉えている。
「言うなれば“フレンドリーライバル”でしょうか」とAWS吉田氏は笑いながら語る。
 2人によると、現代の顧客は特定の製品にロックイン(固定)されるのを嫌うという。まして、預けるのはヒト・モノ・カネに次ぐ「第4の資産」とも呼ばれるデータだ。
 いつでも他の製品に切り替えられるよう、顧客に選択肢を用意しておかないと、逆に選ばれなくなってしまう。
 そこで両者がデータ利活用に特化したソリューションとして、しっかりパートナーシップを組んだのが「Snowflake on AWS」なのだ。
 Snowflake浅野氏は「キーポイントは、データの取り込み速度です。AWSでデータが生まれた瞬間、ほぼリアルタイムでSnowflakeに格納されます」と説明する。
 CAMでは従来、一定のタイミングでデータを、AWSからデータウェアハウスにコピーする処理をしていた。
 それが現在は、タイムラグなしで分析できるようになったという。
 サイロ化したデータを集約して活用するまでのプロセスを通じ、AWSとSnowflakeが提供する各機能が利用できる点をメリットとして強調する。
「Snowflake on AWS」導入のハードルとなるのが「接続どうする」問題だ。AWSはグローバルでトップのシェアを誇る。それだけに、すでに導入している企業も多い。この上にSnowflakeをのせる、もしくはSnowflakeに新たに機能を追加したいとなった場合、果たして社内のIT部門で対応できるのか。
 この点をクリアするため、AWSではSnowflakeとの接続に関する豊富なドキュメントを用意している。Snowflake側も、エンジニア向けドキュメントの日本語化をすでに終えており、日本人エンジニアでもすぐに構築可能だ。事実、サイバーエージェントのIT部門でも、すぐに対応できた。
 しかし、社内でAWSとSnowflakeを接続するとなると、相応の技術力があるという前提となる。技術的な面で不安を抱えている場合、導入を諦めるしかないのか。AWS吉田氏によると、AWSとSnowflakeを両方理解するパートナーが出てきているらしい。
「現在は単なるシステム構築を超え、『ビジネスにどうインパクトを出すか』という視点で伴走するモデルが登場し、私たちも積極的に支援しています」
 もしそうしたパートナーが見つからなければ、AWSまたはSnowflakeに直接相談するのも手だろう。
 一方、Snowflake浅野氏によると、IT部門向けにベストプラクティスを提供し、構築支援を行う「プロフェッショナルサポート」というサービスがあるという。加えて、ビジネス部門であるデータサイエンティスト向けにもトレーニングを提供している。

エンジニアの育成という副次的な効果

 Snowflake on AWSによってDXを阻む壁が消える──2人に話を聞くうちに、そのインパクトが伝わってきた。しかし、他社のクラウドサーバーでもSnowflakeをのせれば同じことができそうだ。
  Snowflakeを利用する際に、AWSを選ぶメリットは何かと問うとSnowflake浅野氏は「AWSの新機能の調整や、連携が強いことですね。新機能の追加のタイミングで、もちろんAWSさん自社のデータウェアハウスへの対応が一番なんですが、おそらく次の優先順位として、真っ先に対応いただいています」という。
 吉田氏はユーザーのことを第一に考えた結果、強固なパートナーシップを築けていると応える。
「付け加えて言えば、5年先、10年先のビジネスやエンジニアの育成という意味でもかなりメリットがあると自負しています」と浅野氏は言う。
 会社の上層部がどのクラウド、どのデータウェアハウスをデータ基盤に採用するかはビジネスやテクノロジーの発展性にとどまらず、エンジニア組織の育成という意味でも重要になってくる──そう語るのだ。
 たしかにAWSはシェアの高い製品だけに、扱えるエンジニアも非常に多い。そうなると、サーバーサイドの技術のデファクトスタンダードがAWSベースになる。Snowflake on AWSを使えば、そうしたエンジニアのナレッジを活かし、AWSで発生したデータの分析につなげられる。
 浅野氏はさらに、AWSがここ10年で日本において盛り上がってきたのは、エンジニアの育成に力を入れたからだろうと語る。
「AWSの資格を取れば仕事がたくさん得られる、給料も上がるというモチベーションでみんながこぞって勉強し、みんなが勉強しているからこそAWSが採用されていくというムーブメントがありました」
 同じことはSnowflakeでもいま、グローバルで起きているという。Snowflakeを勉強しておけば、今後流れに乗れる、給料も高くなる、と。
 自身がエンジニアでもあるAWS吉田氏は「ポータブルなスキルが強力な武器になる」という意見に賛同する。
「Snowflakeを触れる人が、事業の目標や課題に合わせて、データを収集分析できれば、差別化できるスキルになりますよね。
 先々を見据えたプラットフォームを使いつつ、組織のケイパビリティを事業の方向から伸ばしていく。これからデータドリブンな事業を行う上では、非常に重要な意思決定だと思いますね」