GitHub CopilotがMicrosoftを著作権侵害の嵐に巻き込む可能性

Table of Contents

GitHub CopilotがMicrosoftを著作権侵害の嵐に巻き込む可能性

バタリック氏はCopilotのリリース以来、批判的だった。6月にはブログ記事を公開し、「Copilotで生成されたコードには、ライセンス違反や知的財産権違反が潜んでいる可能性がある」ため、使用を避けるべきだと主張した。

同月、ソフトウェア自由保護団体 (SFC) のデンバー・ジンゲリッチ氏とブラッドリー・クーン氏は、Microsoft と GitHub が、機械学習モデルがさまざまなオープンソースのライセンス要件にどのように対処するかという懸念に対処せずに Copilot をリリースしたことが主な理由で、同団体は GitHub の使用を停止すると発表した。

多くの開発者は、Copilotがオープンソースにとって何を意味するのかを懸念している。

コメントを求められたデイビス氏は、懸念についてGitHubとその親会社であるマイクロソフトから回答が得られるまで待つと述べた。

バタリック氏はザ・レジスター紙への電子メールで、自身の調査に関するニュースに大きな反響があったことを示唆した。 

「明らかに、多くの開発者がCopilotがオープンソースにどのような影響を与えるのかを懸念しています」と彼は書いている。「多くの話を聞いています。Copilotに関する私たちの経験は、他の研究者が発見したものと似ています。つまり、識別可能なオープンソースリポジトリからCopilotにコードを逐語的に出力させることは難しくないということです。調査を拡大していくにつれて、より多くの事例が見つかると期待しています。」

'熱心な'

ちなみに、その参加には、マイクロソフトが一部資金提供している Open Source Initiative が運営するイベントで、AI がオープンソースに与える影響について GitHub が資金提供したパネルディスカッションも含まれています。

「この問題についてマイクロソフトとGitHubと何度も話し合ってきましたが、彼らのサポートのない反FOSS(フリーオープンソースソフトウェア)の姿勢は、不安なほど一貫しています」と彼は書いている。「マイクロソフトとGitHubは、自分たちの行動が許容できると、早期かつ頻繁に繰り返し主張し続ければ、真実だと知られていないことを真実にできるという政治的な計算をしていると考えています。」

しかし、Copilotのようなツールを有用だと感じる人々の中には、支援型AIが社会や法の枠組みと調和し、モデルの出力が訴訟に発展しないことを期待する人もいます。

アイルランドのユニバーシティ・カレッジ・ダブリンの助教授、ブレット・ベッカー氏は、The Registerへのメールで次のように述べた。「AI支援プログラミングツールは消滅することはなく、進化し続けるでしょう。これらのツールが、プログラミングの実践、法律、そしてコミュニティの規範といった現在の状況にどのように適合するかは、まだ探求が始まったばかりであり、今後も進化し続けるでしょう。」

興味深い疑問は、この進化の主な原動力となるものは何かということです。これらのツールは、将来の慣行、法律、そしてコミュニティの規範を根本的に変えるのでしょうか?それとも、私たちの慣行、法律、そしてコミュニティの規範は、強靭性を示し、これらのツールの進化を牽引するのでしょうか?

Copilotの基盤となっているOpenAIのCodexのような大規模言語モデルや、ドイツの非営利団体LAIONが収集したImagenやStable Diffusionといったデータセットから構築されたテキスト画像変換モデルの法的影響は、依然として議論の的となっています。Midjourneyによって生成された画像についても同様の懸念が提起されています。

「画像生成器についても調査を進めています。DALL-E、Midjourney、Stable Diffusionにはそれぞれ長所と短所があることをユーザーは既に認識しています。コーディング用のLLMについても同様のことが言えるでしょう」と彼は述べた。

Copilotに関するこうした疑問は、ベータ版が初めて公開されて以来、常に提起されてきました。特にトレーニングデータの取り扱いに関して、これらのシステムに共通する法的な疑問がいくつかあるでしょう。繰り返しますが、こうした疑問を提起したのは私たちが初めてではありません。オープンソースコードと画像の大きな違いは、画像は通常、オープンソースライセンスよりも制限の厳しいライセンスの下で提供されることです。

AI が生成したコードは盗作とみなされるべきか、ニューラル ネットワークのトレーニングに使用される素材の作成者はどの程度まで AI モデルの使用に関して発言権を持つべきかなど、関連する社会的、倫理的問題も未解決のまま残っています。

オチョア氏は、公開されているコードの取り込みに関しては、ソフトウェアライセンス違反の可能性はあるが、おそらくフェアユースによって保護されるだろうと述べた。この点については訴訟は多くないが、多くの学者が同じ立場を取っており、オチョア氏もそれに同意する傾向にあると述べた。

Kuhn 氏は、Copilot がソフトウェア ライセンスをどのように扱っているかを脇に置くつもりはあまりありません。

「マイクロソフトのGitHubがこのプロセスで行ったことは、全くもって不当な行為だ」と彼は述べた。「彼らは、FOSSコミュニティとの協議、同意、関与もなしに、FOSSライセンスの下で何が許され、何が許されないかについて、裁判所や法律よりも自分たちの方が熟知していると宣言している。彼らはすべてのFOSSライセンスの帰属条項を完全に無視しており、さらに重要なのは、コピーレフトライセンスの自由を保護する要件を、より重要視していることだ」

「コード、つまりソースコードを出力しようとすると、出力されるコードが入力の一つ、あるいは複数の入力と似たものになる可能性が非常に高いと思います。なぜなら、コードの本質は機能的な何かを実現することだからです」と彼は述べた。「一度何かがうまく機能すれば、多くの人がそれを繰り返すでしょう。」

船が去っていく中、桟橋に残された人物

開発者がGNUのGPLを無視する中、MITやApacheの寛容なオープンソースライセンスが増加

続きを読む

オチョア氏は、出力がトレーニングデータと同じになる可能性が高い理由として、次の2つを挙げている。「1つは、それを実行する良い方法が1つしかないということ。もう1つは、基本的にオープンソースのソリューションをコピーしているということだ。」

つまり、モデルは、実際には実用的な解決策が一つしかない問題を解決するコードを提案したり、同じことを行う誰かのオープンソースからコピーしたりするかもしれません。いずれの場合も、多くの人が同じコードを使用しており、それがトレーニングデータに頻繁に現れるため、アシスタントがそれをそのまま繰り返してしまう可能性があります。

これはフェアユースと言えるでしょうか?はっきりしません。オチョア氏によると、コードの機能的な性質を考えると、提案として複製することは、フェアユースを判断する基準の一つである「特に変形的」とは見なされない可能性があります。さらに、オープンソースコードが有料化されていない場合、複製が市場に損害を与えるかどうかという問題もあります。もし市場に損害を与えるのであれば、フェアユースは適用されない可能性があります。

「ここで問題なのは、市場がこうした利用に対して料金を請求しないということです」とオチョア氏は述べ、オープンソースライセンスの条件こそが市場が最も関心を持つものだと付け加えた。「裁判所がこれらの条件を重要だと判断すれば、『条件を遵守していないため、これらの作品の市場に損害を与えている』と判断するでしょう。[ソフトウェア開発者は]そもそもこれらの言葉を作った時に望んでいた対価を得ていないのです。」

「つまり、彼らは金銭的な報酬を求めているのではなく、非金銭的な報酬を求めているのです。そして、彼らはそれを得ていません。もし彼らがそれを得られないのであれば、将来的にオープンソースコードに貢献する可能性は低くなるでしょう。理論的には、それはこれらの作品の市場に悪影響を及ぼし、あるいはそれらを生み出すインセンティブを損なっているのです。」

したがって、生成されたコードはフェアユースとなるほど変形可能ではない可能性があり、説明されているように市場に損害を与える可能性があります。この場合も、フェアユースの主張が失敗する可能性があります。

  • AI共同プログラマーは、懸念されているほど多くのバグを生み出さないかもしれない
  • GitHub Copilotはコンピューターサイエンスのプログラミング演習のカンニングに最適かもしれない
  • FauxPilot: GitHub Copilot に似ていますが、Microsoft に電話をかけません
  • ロボットにもオープンソースから学ぶ権利がある

バークレー人工知能研究所が2020年にこの問題を検討した際、プライバシー、バイアス、そして法律への懸念を考慮すると、大規模な言語モデルを公開ウェブデータから学習させることは根本的に間違っている可能性があると示唆しました。彼らは、テクノロジー企業はウェブをひたすら収集するのではなく、より質の高い学習データの収集に投資すべきだと提案しました。しかし、それは実現していないようです。

クーン氏は現状維持はできないと主張し、SFCは訴訟顧問と1年にわたってマイクロソフトのGitHubについて議論してきたと付け加えた。

「我々は文化の岐路に立っており、それは多くの点でSFによって予測されていた」と彼は語った。

大手テクノロジー企業は、あらゆる手段を用いて、人工知能の応用に関して、法律の定めやユーザー、消費者、開発者コミュニティの価値観に関わらず、自社の都合の良い結論を私たちに押し付けようとしています。FOSS、そしてマイクロソフトのGitHubによるFOSSの不適切な利用は、そうした行為の一つに過ぎません。私たちは、この大手テクノロジー企業の行為に立ち向かう必要があり、そうするつもりです。

理想的な結果は何かと問われると、バタリック氏は「まだ言うのは時期尚早だ」と答えた。

「コパイロットがどのように機能するかについては、まだ分からないことがたくさんある」と彼は書いている。

「確かに、オープンソース開発者の権利と利益に配慮したCopilotのバージョンは想像できます。現状では、オープンソースにとって潜在的に存在を脅かす可能性があります。」

オープンソースコミュニティとの深い結びつきによって評判と市場価値を築いてきたGitHubが、オープンソースを収益化し、コミュニティに損害を与えるような製品をリリースするのは、皮肉なことです。一方で、Microsoftが長年にわたりオープンソースに敵対してきた歴史を考えると、それほど驚くことではないかもしれません。2018年にMicrosoftがGitHubを買収したとき、多くのオープンソース開発者(私も含めて)は、最良の結果を期待していました。しかし、どうやらその期待は見事に裏切られたようです。®

Discover More