IBMのAI訓練用データセット、フリッカー写真を無断使用か
コメント
注目のコメント
このデータセットに限っては
https://www.research.ibm.com/artificial-intelligence/trusted-ai/diversity-in-faces/#access
を見る限り
1-million images of human faces from the publicly available YFCC-100M Creative Commons dataset.
とあるのでユーザがCCライセンスを付けたものをあつめたデータセットです。CCライセンスがつけられたものは再利用可能なものです。
報道では
“None of the people I photographed had any idea their images were being used in this way,”
などという発言も引用されていますが、本人が明示的にCCライセンスとしているはず。引用は必要ですが、本人への連絡や本人からの許可は必要ありません。そもそもそういうことをせずにもっと自由にデータを流通させられるように、というコンセプトのもと作られたライセンスです。投稿者がCCライセンスを理解していなかった可能性も。
クリエイティブ・コモンズ
https://ja.wikipedia.org/wiki/%E3%82%AF%E3%83%AA%E3%82%A8%E3%82%A4%E3%83%86%E3%82%A3%E3%83%96%E3%83%BB%E3%82%B3%E3%83%A2%E3%83%B3%E3%82%BA
著作権、肖像権的にどうなのと噂されているデータセットはたくさんあります。例えば、有名なLenaの画像は米国のある雑誌から勝手にとってこられたもの。御本人がICIPという画像処理系の国際会議で最近スペシャルゲストとして登場するとアナウンスされたときは騒然となりました。
Special Guests
http://icip2015.org/specialguest.html本件とは直接関係ありませんが、日本では著作権法の改正により、自分でWebサイトをクローリングすればAI訓練データセットをローカルに保持することが可能になりました。
ただし、顔写真に関しては、個人情報保護法でも守られるものなので、注意が必要ですね。著名人でなければ顔写真単体なら大丈夫な気がしますが、属性情報が付加されるとNGになるので、実質的には難しいかとも思います。もちろん規制も大切だとは思いますが、あまり規制を厳しく行うのもどうかと思います。その結果、規制のゆるい中国などにテクノロジーの分野で遅れをとってしまう可能性があると思います。現に中国we rideでは公道で自動運転の実験を積極的に行った結果、その技術は著しく進化しています。