新着Pick
141Picks
Pick に失敗しました

人気 Picker
データの「ラベル付け」は教師あり機械学習にはなくてはならない作業で、既にいくつかこのようなサービスは見かけたことがあるものの、基本は人力でたくさんの人間が判定すると言うプロセスをアウトソースするプラットフォーム。このスタートアップは社内の専門的かつセンシティブで外注できない作業を対象としているようだが、仕組みを見てみると、ユーザー側がプログラムを組むのを支援してくれるプラットフォームで、自動化の手前にユーザー側で開発コストがかかりそう。
ラベル付を自動で行うというのはどういうことだろう?と一瞬思ってしまいました。この会社のスキームがわからないですが、最近は下記のような研究が盛んに進んでいます。
・自分で様々なpositive/negativeサンプルや処理のお手本を生成するself-supervised (これだけだと夢の技術に聞こえますが、制約はあります)
・一部だけに正解データが与えられ、他のものはそこから推定するsemi-supervised learning
・一部不足した正解が与えられた状態で学習するweakly-supervised learning (例えば、物体検出において物体名は与えられるものの位置は与えられないなど)
・画像を扱うのだけど、その知識を言語など別のドメインから得ようとするfew/zero-shot learning
・ラベルにはある程度ノイズが有ることを想定してDNNに自動的に誤りを判断・訂正させる手法
顧客は、Google, Intel, Stanford Medicine, 大手銀行などで、自社でデータを保有し、学習プロセスを回せられるエンタープライズ企業が対象みたいですね。

技術的には、弱教師あり学習(Weak Supervision)で、一部だけ人でアノテーションしたり、自動でデータ拡張(Data Augment)するツールを提供する模様。

セキュリティ観点で、学習データを外に持ち出せない金融機関などに、オンプレミスで提供するのもポイント。

=参考=
Snorkel AI
https://www.snorkel.ai
気になるし、シバタさん・山崎さんのコメントでより状況がわかる。
自分自身も、SPEEDAの機械学習やそれの改善のためにラベル付け(教師データ作成)をしたりその結果を見たりする。境界線上にある微妙なデータとか、人間だと「もわっと」複数の必須条件などを理解して場合分けできているものが、必ずしも正確ではない。また人間自身がそこが間違える場合があったり、学習に使うデータ以外からも判断をしていることが多く、そうするとそういった違いが学習をさせたときに悪いノイズとなることがあると思う。
誤りもある前提で、精度と規模のバランスで、どういう用途だと使えるかという用途開発・適合性が重要な領域だと思う。
Snorkel良いですね。
アノテーション(ラベル付け)は、半教師付き学習の最も良い使い道です。もちろん一部は人が目視確認する必要がありますが、圧倒的に効率化できますから。

久しぶりにSnorkelサイトを眺めてみたら、単なる半教師付きアノテーションソフトじゃありませんでした。Snokel Flowという end-to-endの機械学習アプリ開発プラットフォームに注力しているのですね。手間と時間のかかる前処理段階に強みがあるので、とても気になります。
「顧客名は非公開だが、米国のトップクラスの銀行2行と複数の政府機関、さらに複数のフォーチュン500企業が同社のプラットフォームを利用中」とのこと。
資金調達し、今後が楽しみですね。
近未来必ず実現されるであろうIT技術の中に、この「データの有効性」を高めるためのannotationが存在する。

記事中は、金融や医療機関など専門的な領域でのニーズを特筆しているが、次第にありとあらゆる事業ドメインでこの技術が必須化されてくるだろうと思う。
そういう意味では、アカデミックリソースを様々な産業に接続し活用する事が上手な欧米諸国が先頭を走り出すのも頷ける内容ではないだろうか。