新着Pick
112Picks
Pick に失敗しました

選択しているユーザー
ビッグデータを持つものが勝者という、シンプルで強力だけど少し面白みにかける原理が、AI業界では証明されつつありますね。

自然言語処理の領域では、有名なOpenAIのGPT-3を筆頭に、とにかくデータを増やせば凄いことが起こる的な、規模の勝負になってきた。そこに画像の領域も加わりそう。
小規模ながらも質の高い学習データを手間かけて作ってきたプレーヤーにとっては、朗報なのか訃報なのか、まだ何とも言えない。
人気 Picker
「「SEER(SElf-supERvised:自己教師あり)」と名付けられた」
とありますが、self-supervised learningという手法はこれまでもたくさんあるので、「self-supervised learningからとってSEERと名付けられた」とするのが正しいと思います。どうでもいいことですけども。

データの数は多ければ多いほどいいということはこれまでの多くの研究がそれを証明しています。ところが、そうなるとデータを大量に持っている企業が一強になります。かりにそのデータが公開されたとしても、今度はその大量のデータを扱う計算機を準備できるかという点でまた大企業に置いてけぼりにされます。

最近の論文ではV100とかA100(最新のGPUだと思ってください)を1000台使ってX週間かけて学習した、なんて平気で書かれているものもあって驚愕です。ちなみに、A100 x 8構成のAmazon EC2 P4dは32.7726USD/時間なので、これを100台借りて1時間回すと$3277/h。1時間で約35.5万円+消費税です。乾いた笑いしか出ません。

「Amazon EC2 オンデマンド料金」
https://aws.amazon.com/jp/ec2/pricing/on-demand/


ただ、悲観的なことばかり述べても仕方ないので少し補足しますが、もちろんアルゴリズムを工夫する余地というのは多分に残されていて、我々のような弱小チームは知恵で乗り切ろうと試みています。
「自己教師あり学習という相応しい名前が付けられたこの手法は、AIの分野ではすでに確立されており、その実体は与えられた情報から直接学習できるシステムの開発だ。その際、写真の中の物体を認識したり、ひとまとまりの文章を翻訳したりするなどのタスクを実行する方法を学習させるために、丁寧にラベル付けされたデータセットを利用する必要はない。」
FaceBookはこの技術でどういうビジネスを考えているのかが気になります。
このモデルは「SElf-supERvised:自己教師あり」と名付けられたそうです。
「この画期的な成果は、まだ初期の段階とはいえ、コンピュータービジョンに「革命」をもたらすことになるとチームは期待している」