青森県では高齢者の方々がAI日本語アノテーション業務を始める
コメント
注目のコメント
MITのProf. Antonio Torralbaという、画像認識・処理の分野で超有名な研究者がいます。
「多分世界で一番アノテーションをしてきて、一番スキルを持っているのはうちの母。なぜなら自分たちが依頼するから」といつも豪語されています。下記はその裏話的なエッセイ。Fig. 2に登場するのが氏のスペインに住むお母様。
Notes on image annotation
http://people.csail.mit.edu/torralba/publications/memories.pdf
(追記)
アノテーションが大変かつ、今後は現実的でないこともわかっているのでいまはself-supervised, semi-supervised, weakly-supervised, zero/few-shot learningが注目を集めています。
self-supervisedは自分の手元にあるデータで正解も自分で作ってしまう手法。例えば、超解像AIを作るときに、手元にある画像を縮小して、縮小した画像を元の大きさに戻す学習をさせたあと、元画像に適用して超解像化するなど。
semi-supervisedは一部のデータにのみラベルが振られていて、その他多数にはラベルがないというもの。
weakly-supervisedは中途半端なラベルのみがついているもの。例えば、物体検出のラベルとしては位置と物体名が必要ですが、物体名だけがわかっていて位置がわからないなど。
zero/few-shotは構造化された知識(例えば猫もライオンも同じネコ科であるなど)や画像を扱うのだけど予備知識を文書から得るようなアプローチ。
特にself-supervisedはCVPR19でLuCan先生が、AAAI20でHinton先生が「今後のAIの方向性だ」と述べたこともあり、とても注目を集めています。AIの学習のための正解・不正解を判断する業務を青森のシルバー人材が担うという話。定年退職後でもまだまだがんがん働ける人材が山のようにいます。そういった方がスタートアップ企業で活躍されるというのはとても意義があるので、今後広がってほしいです。
”それこそ、今後増えてきそうなAI活用。その反面、足りないAI人材。この部分を解消できるのがシルバー人材なのかもしれない。また、オフショアではなかなか難しい「日本語」という部分も問題ないので、携わる人が“win”になるような取り組みだ。””教師データ自体の精度が悪ければ、AIは誤った情報をもとに学習するため、AIそのものの精度を左右する大事な作業である。”
機械学習という名前なのに、そのプロセスでこんなに人力作業が必要なのかと言われることもありますが、データの信頼性が低いと精度も出ないので、アノテーションが今後も重要な作業になりそうですね。
今後はアノテーションのアルバイトとかも増えてくるのではないかと思います。