スタンフォード大学発のAIスタートアップSnorkel AIが1500万ドルを調達
コメント
選択しているユーザー
自動でラベル付けできるということは、もうそのタスクは解けているのではないかと思ってしまいます
でも言語処理で言う誤り訂正といったタスクを考えると、母語話者が書いた文(=間違いが無いと仮定できる文)に対しては自動でラベル付けが可能な場合があると思います。それで学習させて、未知の誤りを含むコーパスに対して推定する流れは想像できますね。
いずれにせよ、どんなラベルを自動付与するのかはタスクによるので、その情報をユーザーがどう与えるのかは気になります。
注目のコメント
ラベル付を自動で行うというのはどういうことだろう?と一瞬思ってしまいました。この会社のスキームがわからないですが、最近は下記のような研究が盛んに進んでいます。
・自分で様々なpositive/negativeサンプルや処理のお手本を生成するself-supervised (これだけだと夢の技術に聞こえますが、制約はあります)
・一部だけに正解データが与えられ、他のものはそこから推定するsemi-supervised learning
・一部不足した正解が与えられた状態で学習するweakly-supervised learning (例えば、物体検出において物体名は与えられるものの位置は与えられないなど)
・画像を扱うのだけど、その知識を言語など別のドメインから得ようとするfew/zero-shot learning
・ラベルにはある程度ノイズが有ることを想定してDNNに自動的に誤りを判断・訂正させる手法データの「ラベル付け」は教師あり機械学習にはなくてはならない作業で、既にいくつかこのようなサービスは見かけたことがあるものの、基本は人力でたくさんの人間が判定すると言うプロセスをアウトソースするプラットフォーム。このスタートアップは社内の専門的かつセンシティブで外注できない作業を対象としているようだが、仕組みを見てみると、ユーザー側がプログラムを組むのを支援してくれるプラットフォームで、自動化の手前にユーザー側で開発コストがかかりそう。
顧客は、Google, Intel, Stanford Medicine, 大手銀行などで、自社でデータを保有し、学習プロセスを回せられるエンタープライズ企業が対象みたいですね。
技術的には、弱教師あり学習(Weak Supervision)で、一部だけ人でアノテーションしたり、自動でデータ拡張(Data Augment)するツールを提供する模様。
セキュリティ観点で、学習データを外に持ち出せない金融機関などに、オンプレミスで提供するのもポイント。
=参考=
Snorkel AI
https://www.snorkel.ai