新着Pick
123Picks
Pick に失敗しました

選択しているユーザー
ただほど怖いものはない? 無断利用でカリフォルニアの裁判に巻き込まれる?   Free, not so much

無料で使えるRedditのような多くのサービスは利用規約の中で、コンテンツの権利を厳格に制限しています。

Redditの利用規約 3. お客様の本サービスのご利用について では下記の記述があります。

当該制限が適用法の下で許されない場合を除き、またその範囲に限り、ユーザーは、Redditの書面による同意がない限り、以下のことを行うことはできません:

... 著作権法における二次的著作物 (英: derivative work) の作成...



さらに、Redditの利用規約 7. 禁止事項 では下記の記述があります。

本サービスを使用して、... 知的財産権またはその他の所有権を侵害したりすること;


Redditの懸念は、インターネット上でアクセス制限がない状態で開示されているRedditの情報をAIデータのトレーニングに使っているのではないかという事です。

仮にAIデータのトレーニングにRedditのデータを書面による同意がないまま使っているのであれば、明確な利用規約違反になります。

では、仮に利用規約を違反してRedditの許可なくデータをスレーピングしてAIの開発等に使っていたらどうなるでしょう?


Redditの利用規約 14. 準拠法および裁判地 には下記の記述があります。

適用される法律が許容する最大限の範囲において、本規約または本サービスに起因または関連する請求は、抵触法の規定にかかわらず、カリフォルニア州の法律に準拠します。

本規約または本サービスに関するすべての紛争は、カリフォルニア州サンフランシスコにある連邦または州の裁判所のみに提起され、ユーザーおよび Reddit はこれらの裁判所における人的管轄に同意します。


この意味するところは、仮に許可なくAIデータセットとしてRedditのデータセットを使ってしまったら、利用規約違反としてカリフォルニア州サンフランシスコ市の裁判所に訴えられる可能性がある事を意味します。

気軽にAIのデータセットを求める前に、テクノロジーに精通した現地の米国弁護士にぜひ相談を。
人気 Picker
クローリングして収集したデータで開発したAIを商用利用すること自体は(国によるものの)OKというケースが目立つが、「創作した人が報われるための著作権法」に照らすと本当に今のままで良いかどうか怪しいところで、ひっくり返ることもあり得るよなぁと思います。
GoogleやPinterestが賛否ありつつも黙認されてきたのはトラフィックで還元していたからであって、完全フリーライドの生成系AIへの風当たりは従来の比ではないでしょうね。
クリエイターやコンテンツホルダーが報われる世界観にならないと良質なコンテンツを生み出すインセンティブが減るわけで、ここの設計を踏み外すと誰も幸せにならないと思います。
米国のコンテンツ企業では、生成AIの学習データに、無料利用されることへの反発が続きそうです。

ChatGPT (GPT-3.5以降)の学習データは非公開ですが、前身のGPT-3の論文では、Redditのデータ利用を言及しています。

日本のコンテンツ企業が、この反発に追随するか、しばらく様子を見るかで、生成AIの日本語力の進化が大きく変わりそうです。
コンテンツの利用禁止ではなく「使用料を払え」という主張であるところがポイントでしょう。お金で解決できるなら、普及が進む可能性が高いので、良いことと思います。(支払えない程の金額を請求して、開発が止まれば別ですが)

もう一つのポイントは大手ITサービスや大手メディアの間の話であることです。個人のクリエータに還元するところまで話が進むかを注目しています。

昨年、Web3の分散協調が盛り上がりましたが、生成AIで中央集権のWeb2.0がさらに強固になった印象です。
著作権の話と、利用権の話がある。API利用は特にだが、ネット上の情報は比較的多く、利用権に同意したうえで使うということになっており、そこで利用の範囲が規定されていることが多い。APIなどの契約は、特にそういう部分が明確に定義されていることが多い。
Redditが、そこをどうこれまで定義してきて、今後それをどう定義していくのかが気になる。

併せて、著作権のうちの引用については人類の英知だと思っており、要件を満たせば事前通知なく引用を出来る。それによって、様々な知見を基に意見を表明することができるし、一方で著作についての権利は守られる構造になっている。
英知を相互に利活用してきたから、人類はここまで進化してきた。英知を提供したことにともなう権利・報酬は重要だが、そこをガチガチに固めると進化も止まるのが実態。進化のために権利が損なわれていいという風に決して思っているわけでは決してなく、いい仕組み・構造・習慣が出来ると良いなと思う。
生成AIは「どんなデータを食べさせるか」によってアウトプットが大きく変わります。ウェブ全体をクロールしていると思っている人も多いのですが、そんなことはありません。

生成AIの脅威が知られるにつれ、生成AIによるコンテンツ利用を制限する国やサービスが相次いでいます。これは裏を返すと、「大量のデータを保有しているサービサー」が有利になるかもしれません。

Adobeの画像生成AI「Firefly」が、Adobe Stockライブラリのコンテンツを利用することで、IPトラブルを回避しているのはその典型です。また朝日新聞が自動要約生成API「TSUNA」を開発していますが、これも自社記事を食わせているので、競争力のある商品になり得ると思います。

ひるがえって、Googleがもっているデータとはなにか、という議論になりそうです。これから古典的なWebサービスが盛り返す展開もあるかもしれませんね。
日本の著作権法は、権利者の利益を不当に害しない限りデータを食わせるのは合法と明記している。仮に日本のユーザに請求されたとして、法律がどう適用・解釈されますかね。
でもそれって「二次創作」なんですか? って話。二次創作って、リミックスとか映画化/アニメ化みたいな意味だよね。

そう主張するなら二次創作である証拠を出してほしい。
ブロックチェーンと組み合わせることでAIコンテンツの著作権を明確にできないのか?
レディットのデータだけなら一理あるか。でもネットのあらゆるデータを学習しての一部だとしたら…「レディットをはい回って価値を生み出し、その価値をユーザーには一切返さないことをわたしたちは問題視している」
マイクロソフト(英語: Microsoft Corporation)は、アメリカ合衆国ワシントン州に本社を置く、ソフトウェアを開発、販売する会社である。1975年にビル・ゲイツとポール・アレンによって創業された。1985年にパソコン用OSのWindowsを開発。1990年にWindows向けのオフィスソフトとしてMicrosoft Officeを販売。 ウィキペディア
時価総額
356 兆円

業績