チャットGPT 新たな懸念…著作権侵害を示唆する研究結果

チャットGPTモデルGPT-4が小説やニュース記事に掲載された文章を記憶し出力した状況が確認されました。AIが学習中に記憶したコンテンツをそのまま再現した事例が、論文を通じて初めて明らかになりました。

ワシントン大学とアレン人工知能研究所（AI2）所属の研究者が発表した論文によると、GPT-4は訓練中に出会った文章を記憶し、それを再生成する傾向を示しました。アヴィラシャ・ラヴィチャンダー、イェジン・チェ、チャンドラ・バガヴァトゥラなど9名の研究者は、2025年3月に発表した論文で「情報誘導探索（information-guided probing）」という分析手法を通じてこの事実を立証しました。該当方式はモデル内部構造や重みにアクセスしなくても、GPT-4が特定の文章を記憶した状態で出力したかを統計的に判別できる技術です。

研究者はBookMIA電子書籍データセットを分析した結果、GPT-4が小説の一部文章を原文そのまま復元する事例を多数確認しました。単語の配列、固有名詞、句読点の位置まで一致する結果が捉えられました。ニュース記事の中ではニューヨークタイムズのコンテンツの一部が類似した形で再生され、頻度は低かったものの同様の方式での記憶可能性が存在することが分析されました。

研究結果はOpenAIを相手取って提起されたニューヨークタイムズの著作権侵害訴訟と直接関連しています。ニューヨークタイムズは2023年末、自社の記事がOpenAIのモデル訓練に無断で利用されたとして訴訟を提起しました。核心争点はGPT-4が学習した著作権コンテンツをユーザーの要求に応じてそのまま出力できるかどうかです。

今回用いられた「情報誘導探索」手法は、該当の争点を立証できる技術的証拠として評価されます。GPT-4が訓練中に接した文章を記憶した状態で再び出力したという分析は、生成された文章がAIの創作物ではなく、原著作者の表現である可能性が高いという根拠となります。

アメリカ著作権法はアイデアそのものではなく具体的な表現を保護対象とします。したがって、GPT-4が生成した文章が原作と類似した構造を持っていれば、フェアユース（公正利用）主張にもかかわらず侵害と判断される可能性があります。またAIがユーザーの要求を通じて著作権文章を出力した場合、企業に間接侵害責任が適用される可能性も提起されています。

著作権をめぐるニューヨークタイムズとOpenAIの法廷闘争 ⓒ ソリューションニュース

研究者は記憶防止のための技術的代替案も併せて提示しました。「SUV（選択的非学習）」は、著作権があるコンテンツと同じ特定データをモデルが学習しないように遮断する方式であり、「DE-COP」は生成された文章が学習データから由来したかどうかを事後に識別する分析手法です。ただしこのような技術がGPT-4をはじめ商用モデルに実際に適用されたかの証拠は確認されていません。

生成されたコンテンツにウォーターマーキングを挿入して出所を追跡する方式も議論されています。ただしこの方式は生成後の成果物にのみ適用可能である点で、モデル内部に存在する記憶された表現を除去または検出するには限界があります。GPT-4のようにすでに大規模データを学習したモデルの場合、記憶内容を完全に除去する技術はまだ初期段階にとどまっています。