「データセットの公開」も合法? 驚きのカラクリ

(2)学習に使ったデータセットを公開しても良い?

事例:Web上のデータを大規模に収集して学習用データセットと生成AIモデルを構築し、両方を公開した。AIモデルは問題ないとしても、学習用データセットには収集したデータ(著作物)がそのまま含まれているため、これを公開するのは著作権侵害ではないか、という指摘があった。

 これもよくある誤解だが、結論としては、学習用データセットの公開も著作権法30条の4により適法である。AIモデルと一緒に公開しようと、データセット単体で公開しようと、この結論は変わらない。

©tota/イメージマート

 学習用データセットには、収集対象となった著作物が含まれているため、その公開は当該著作物の公衆送信(インターネットでの公開など)に該当する。しかし、著作権法30条の4は「情報解析の用に供する場合」には、「その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる」と定めている。この「いずれの方法によるかを問わず」という部分がポイントで、他人のために学習用データセットを作成したり、それを公開したりすることも含まれると解釈されているのである。

ADVERTISEMENT

 実は、現行の著作権法30条の4ができる前は、他人のためのデータセット作成やその公開は認められていなかった。その点はAI開発を進める上で大きな障害となっていたが、平成30年の著作権法改正によって、データセットの共有も合法的に可能になったのである。