Infostand海外ITトピックス

著作権侵害とプライバシー侵害 ChatGPTの訓練データめぐり2訴訟

 ChatGPTの訓練データをめぐって、2つの訴訟が同じ日に起こされた。一つは著作権侵害、もうひとつはプライバシー侵害で、いずれも原告を広く募るクラスアクション(集団訴訟)だ。生成AIでは基盤LLM(大規模言語モデル)の訓練に膨大なデータが必要で、多くをインターネットからの収集に依存している。そこを突く訴訟は、AI開発の是非を巡る論争や世界的な規制の動きとともにAIの将来に大きな影響を与える。

著作権侵害ではOpenAI初の訴訟

 まず著作権侵害訴訟。6月28日、マサチューセッツ州在住の作家、Paul Tremblay氏とMona Awad氏の2人が自身の作品の著作権が侵害されたとしてOpenAIをカリフォルニア州北部地区連邦地裁サンフランシスコ支部に訴えた。

 基盤LLMのGPT-3.5およびGPT-4の訓練で使用された30万冊以上の書籍データの中に、「同意なし、クレジットなし、無償でコピーされた」大量の書籍があり、その中に原告の著書が含まれていると主張。データの利用差し止めと損害賠償を求めている。

 OpenAIは訓練で、インターネット上からスクレイピングしたデータを利用していることは認めているが、詳細は公表していない。原告側は、著書が利用された根拠として、ChatGPTが原告の著作の要約を出力することを確認したとしている。著書が訓練に使われていない限り、要約はできないはずだとの主張だ。

 The Guardianは、英サセックス大学のAndres Guadamuz准教授(知的財産法)のコメントを紹介。これはChatGPTに対する初の著作権訴訟であり、AIの訓練での「合法性の境界線」を探るものになるだろうと伝えている。

 なお、原告側弁護士は、ソフトウェア開発者で弁護士のMatthew Butterick氏と、サンフランシスコの法律事務所Joseph Saveri Law Firm。昨年11月、オープンソースソフトのライセンス違反でGitHub、Microsoft、OpenAIの3社を訴えたGitHub Copilot集団訴訟と同じだ。

 GitHub Copilot訴訟の方は、裁判所の指示で訴状の修正が行われたところで、クラスアクションが成立するかの審理が進められている。

【追記:07/10】
 7月7日、作家でコメディアンのSarah Sil­ver­man氏ら3氏が、それぞれOpenAIとLLaMAの開発元であるMetaを相手取った著作権侵害訴訟を起こした。PaulTremblay氏の訴訟に続くもので、代理人弁護士は同じくMatthew Butterick氏とJoseph Saveri Law Firm。