ホーム
202フォロー
221フォロワー
【時給5000円】今一番おいしい「AIバイト」って何だ?
北内 啓NewsPicks データサイエンティスト
日本にもデータアノテーションを手掛ける企業は数多く存在しますが、顧客企業のビジネス課題を解決するのに必要なデータをアノテーションするケースがほとんどです。
ただ、日本でもLLMの品質向上に必要な教師データを作ろうという取り組みはあります。たとえば理研の関根先生が中心となって、LLMを開発する企業などとの共同研究という形で日本語のインストラクションデータ(質問とその回答のデータ)を作成するプロジェクトを進めています。
この記事で言及されているScale AIのような企業と比べると作成しているデータの規模はまだ小さいのですが、日本におけるLLM開発にとって重要な取り組みなので期待しています。
https://www.youtube.com/watch?v=a1oi1dNBUKU
https://liat-aip.sakura.ne.jp/wp/
海外企業は大規模AIモデルのためのデータをあらゆる手段で収集しています。記事中に以下の記載がありますが、
> 今や、YouTubeの文字起こしをデータ化するという権利的に「グレー」な手法がまかり通り
最近のWSJのインタビューで、テキストから動画を生成できるSoraの学習にYouTubeの動画を使ったかと聞かれたOpenAIのミラ・ムラティCTOが顔をしかめて「分からない」と言葉を濁す場面が話題になりました(以下の動画の4:23あたりから)。
https://youtu.be/mAUpxN-EIgU?si=n7WFhCqtEW5osG2I&t=263
これに対しYouTubeのニール・モーハンCEOは、OpenAIがSoraの学習にYouTube動画を使ったとすれば違反だと答えています。
https://www.itmedia.co.jp/news/articles/2404/05/news098.html
大規模AIモデル開発の熾烈な戦いは当面続きそうです。
アップル、新しいプログラミング言語「Pkl」をオープンソースで公開。コンフィグレーション生成用
北内 啓NewsPicks データサイエンティスト
ソフトウェア開発において設定が果たす役割は年々重要性を増し、それにともなってその複雑性も増しています。JSON、YAML、XMLなどの既存の静的データ形式は、読み書きの難しさ、大規模なファイルを複数の小さなファイルに分割する機能の欠如、スキーマの検証機能の不足といった問題を抱えています。
このような課題に対応するため、AWSのインフラ構成を記述するCloud Development Kit (CDK) などのフレームワークでは、TypeScriptやPythonなどの汎用プログラミング言語を設定のための記述言語として採用しています。しかし、これらの言語は設定専用ではないため、設定の読み書きやデバッグが困難な場合があります。
Appleが発表したPklは、これらの既存技術の問題点を克服することを目指した、設定専用の言語となっています。
従来のアプローチとの比較については以下に詳しく書かれています。
https://pkl-lang.org/main/current/introduction/comparison.html
また、Pklの実際の文法などはチュートリアルを見るとイメージがつかめます。個人的には、文法がシンプルで人間にとって読み書きしやすい点が気に入りました。スキーマの検証や各プログラミング言語への対応といった機能面、運用面も充実しています。
https://pkl-lang.org/main/current/language-tutorial/01_basic_config.html
Apple自身、現状はiOSやmacOSの設定ファイルにプロパティリスト(plist)形式を使用していますが、将来的にはこれをPklに置き換えていく可能性もあるかもしれません。
NORMAL
投稿したコメント