日本で注意しておくべき“ポイント”
一つは、「学習」の目的が問題となる場合である。例えば、特定のキャラクターや特定のイラストレーターの作品をそっくり真似た画像を意図的に生成させるために、ごく少量のデータ(例えばそのキャラクターの画像だけ)を集中的に学習させることを目的として海賊版等の権利侵害複製物を掲載するウェブサイトからの学習データの収集を行うケースである。このような、元々の著作物の表現をそのまま出力させる意図(「表現出力目的」と呼ばれる)が明らかである場合は、30条の4の保護を受けられず、著作権侵害となる可能性が高い。しかし、一般的な大規模言語モデル(LLM)などの開発のように、膨大なデータを学習させる場合は、通常このような「表現出力目的」があるとは考えにくいため、問題となるケースは少ないだろう。
もう一点は、開発したAIモデルを使って、ユーザーが著作権侵害となるような使い方をした場合である。例えば、あるユーザーがAIを使って、既存のキャラクターそっくりの画像を生成し、それを無断で販売した場合、当然そのユーザーは著作権侵害の責任を負う。それに加えて、一定の条件を満たせば、AIの開発者も責任を問われる可能性が出てくるのである。具体的には、開発者が(1)海賊版と知りながらデータを収集し、(2)特定の著作物の表現を強く再現するような特殊な学習を行い、(3)その結果、著作権侵害が起こりやすいことを認識しており、(4)それを避ける対策を怠った、といった複数の要素が重なった場合である。これも、大規模モデル開発では通常考えにくいが、注意は必要である。
また、ウェブサイト側が「AIによる学習お断り」の意思表示をしている場合(例えば、robots.txtというファイルでクローラーによるアクセスを制限している場合)や、データにコピーガードのような技術的な保護手段が施されている場合、それを無視・回避してデータを収集し学習に使うことはどうだろうか。
robots.txtによるアクセス制限については、日本の著作権法30条の4にはこれを無視・回避してはいけないという明確な規定はないため、これを回避して情報解析を行うこと自体は、著作権侵害にはならないと解釈されている。一方、コピーガードのような技術的保護手段を解除してデータを利用する行為は、原則として著作権侵害となりうる。ただし、これも情報解析のための研究開発目的であれば、例外的に適法となる場合が多いと考えられる。