Infostand海外ITトピックス

GitHub Copilotに集団訴訟 AI訓練データで初

Copilotの出力に当初から懸念

 Copilotには最初の段階からコードの扱いについての疑惑があり、2021年6月にテクニカルプレビューが始まるとすぐに、出力が訓練データをそのまま複製することがあると報じられた。2021年6月12日付のWiredは、ゲーム「Quake III」の有名なソースコードがその(冒涜的な)コメントも含めてCopilotから提案されたとするオープンソース開発者の話を伝えている。

 これに続く形で、議論が沸き起こった。元のコードから著作権表示を消すことを「オープンソース・ロンダリング」と呼ぶ者もいた。

 当時、このテーマと取り上げたHacker Newsの掲示版のスレッドでは、GitHubのCEO(当時、2021年11月に退任)のNat Friedman氏が、Copilotのデータ利用には「フェアユース」(公正利用の例外規定)の法理が適用されるという見解を示し、FAQを参照するよう回答した。

 GitHubのFAQでは、「150文字超の提案では、約1%の確率で訓練データと同じコードが出力されることがある」「GitHubで公開されているコードが生成された場合、検出してアラートを出すフィルター(オンオフ切り替え式)を用意している」と説明している。提案されたコードを使うかどうかは、ユーザーに委ねられるとの姿勢だ。

 しかし、Butterick氏は今年6月の個人ブログで、「親会社のMicrosoftは、ライセンス順守の全負担をユーザーに押しつけながら、ユーザーが判断するために必要な情報を何一つ共有していない」と非難している。

 Copilotのコードをめぐっては、つい最近の10月16日、テキサスA&M大学のTim Davis教授(コンピュータサイエンス・エンジニアリング)が「私が著作権を持つ大きなコードチャンク(塊)を、Copilotが帰属もLGPLもなしに出力している」とツイート。議論が再燃していた。今回の提訴はこのタイミングで行われたものとなる。

 各メディアの取材に対してGitHubは「私たちは当初から、Copilotで責任を持って革新を行うと約束してきました。世界中の開発者に最高のサービスを提供するため引き続き製品を進化させていきます」とのコメントを出している。MicrosoftとOpenAIは、これまでのところコメントはしていないようだ。