• 特集
  • 番組
  • トピックス
  • 学び
プレミアムを無料で体験

人工知能の権威が語る「データの質」の重要性

339
Picks
このまま本文を読む
本文を読む

コメント


のアイコン

選択しているユーザー

  • Privacy By Design Lab Founder

    良いデータを集めるのが一番コストがかかります。データを活用する目的と取得したデータの整合性、そこからのアウトプット(Consistency)を前提に考えなければ、処理結果によってはデータ提供者を選別する(個人データの場合はDiscrimination)ことになってしまうので、適切なデータに対して適切なアウトプットを考える必要があります。


注目のコメント

  • 京都大学法学研究科 特任教授/日本・NY州弁護士

    本記事で紹介されているように、AIシステムの性能には品質の良いデータが不可欠です。品質のよいデータを作るには相当のコスト(本記事によればAI開発の約80%の時間)がかかります。他方、データはゼロコストで複製できるので、品質のよいデータを多くのプレイヤーで利活用することが、社会の発展にとって重要な鍵となります。そのため、社会制度のデザインの観点からは、いかに多くの主体が品質の良いデータを作り、かつそれを第三者とシェアするインセンティブを生み出すかという点がポイントになります。

    データには所有権が発生せず、また著作権などの知的財産権も発生しないことが多いため、どのようにデータ作成者の権利を保護するかは重要な課題です。実は日本は、データ利活用について、既に様々な制度整備を行っています。

    データををやりとりする場合には、契約によってデータ提供者とデータ利用者の権利や義務をデザインする必要がありますが、その契約のスタンダードモデルを国が提供しています(※1)。また、商品として提供されるビッグデータなどを「限定提供データ」として保護する法改正を行っています(※2)。さらに、AIに学習させる目的で著作物をコピーしたり加工したりすることが、著作権者の許諾なく行えるという著作権法改正も行われています(※3)。これらはいずれも、世界的に先駆けて行われた先進的な取組です。

    もっとも、こうした制度整備だけでデータ保護や利活用が達成されるわけではなく、暗号技術やブロックチェーン、モニタリング用のAPIなどの技術的な方法を使って、契約や法律で定められたとおりのデータ利用が行われることを確実にすることも重要です。また、データにどのような価格をつけるかというのも難しい論点です。データガバナンスは、技術、市場、そして制度の総合格闘技なのです。

    ※1 https://www.meti.go.jp/press/2019/12/20191209001/20191209001.html
    ※2 https://www.meti.go.jp/policy/economy/chizai/chiteki/guideline/h31pd.pdf
    ※3 https://www.bunka.go.jp/seisaku/chosakuken/hokaisei/h30_hokaisei/


  • 大阪大学社会技術共創研究センター 招聘教員

    AIモデル構築(MLコード)は花形ですが、プロジェクト全体のごく一部分にすぎず、その周辺領域(データ収集、データ確認、特徴量抽出、コンフィグレーション、インフラ管理など)が非常に大きい割合を占めます。
    Hidden Technical Debt in Machine Learning Systems という論文で示された図が有名です。
    https://papers.nips.cc/paper/2015/file/86df7dcfd896fcaf2674f757a2463eba-Paper.pdf

    データの質に関して言えば、いくら大量にデータを集めようとも、必要となる情報が含まれていなかったり、ノイズ等でほとんど消えていたりすると、意味を成しません。
    生のデータは、不要な情報やデータ間での形式違いがあり、そのままで機械学習に利用できることは稀です。

    そこで、データを加工することになります。例えば、撮影された動画データを静止画に切り分けるようなデータ変換や、認識対象のエリアを切り抜いてシンプルにするといった事前加工などがあります。
    教師あり学習の場合は、正解データを人間がひとつひとつタグ付けすることによって行われます(アノテーション)。

    このように、データの収集と加工が高コストだからこそ、 現実にはオープンデータセット(企業や研究者が公開しているデータセット)が重用されています。

    さらに、機械学習を用いたAIシステムは、開発したら終わりではありません。
    記事中で言及されているMLOpsは、(隠れがちな)プロセス全体をシームレスに連携し、開発時だけでなく本番環境での運用システムも含めて横断的に行う必要性から生まれたコンセプトです。
    なお、MLOpsは、Machine LearningとOperationsを統合した造語で、DevOps(Development と Operations を統合した造語)から派生しています。

    企画設計、データ収集、AI開発、運用を継続させてプロセスを回すことで、より推論精度が高く安定したAIシステムを構築することが目指されています。


  • badge
    東京大学 大学院情報理工学系研究科電子情報学専攻 教授

    研究と開発で大きく異ると思います。

    新たなアルゴリズムの実現を目指す研究分野では、すでに確立した(ノイズやアンバランスの少ない、実績のある)データセットを用いて精度を競います。新たなデータを作って公開・共有するのはとても大変なので、逆にそれをすると引用されたりリスペクトされたりします。

    実利用の現場ではデータの量、質ともに不足する場合が多いです。逆に言ってしまえば、これまで地道にデータ整備を行ってきた企業さんにはチャンスが有るということでもあります。例えば、下記の企業さんの取り組みなどが正にそうです。

    カルビーのポテチを売上1.3倍にしたAIの正体--プラグの「パッケージデザインAI」の実力
    https://newspicks.com/news/5820756


    ただ、私の肌感ではアルゴリズムとデータは「車の両輪」もしくは「エンジンとガソリン」の関係。どちらが駄目でもトータルシステムとして駄目になりますね。


アプリをダウンロード

NewsPicks について

SNSアカウント


関連サービス


法人・団体向けサービス


その他


© Uzabase, Inc

マイニュースに代わり
フォローを今後利用しますか