Linux FoundationがOpenBytesプロジェクトを支援:AIトレーニング用データ共有の法的リスクを大幅に削減する試み

Table of Contents

Linux FoundationがOpenBytesプロジェクトを支援:AIトレーニング用データ共有の法的リスクを大幅に削減する試み

非営利団体のLinux Foundationは火曜日、データセット管理プラットフォームのGravitiと提携し、データ標準とフォーマットの開発を通じてオープンデータの法的リスクを軽減する取り組みであるProject OpenBytesを開発すると発表した。

Project OpenBytesの目標は、他のAI/MLプロジェクトとデータセットを共有することに関心のある組織や個人の法的リスクを軽減することです。データ管理者は、ライセンス制限への懸念から、データセットの共有を躊躇することがよくあります。

Linux Foundation によると、データ管理者にデータの権利が保護され、データが悪用されないことを保証できれば、より多くのデータセットをオープンかつアクセス可能にすることができるという。

「OpenBytesプロジェクトとコミュニティは、より高品質なオープンデータセットへのアクセスを可能にし、AIの導入をより迅速かつ容易にすることで、学術界と専門職、大企業と中小企業を問わず、すべてのAI開発者に利益をもたらすだろう」と、Linux Foundationのゼネラルマネージャー兼プロジェクト担当SVPのマイク・ドーラン氏は声明で述べた。

AIと機械学習の法的リスクは、最近の様々な訴訟に見受けられます。例えば昨年、IBMは原告の写真を自社の「顔の多様性」データセットに使用したとして、イリノイ州生体認証情報プライバシー法に違反したとして告発されました。また、昨年はAmazon、Google、Microsoft、そして顔認識企業のFaceFirstが、顔認識アルゴリズムの学習にこのデータセットを使用したとして、別の訴訟も提起されました。

さらに、顔認識ビジネスを展開するClearview AIは、さまざまなソーシャルメディアサイトから情報を収集して顔認識データベースを構築したとして、EU、英国、米国で訴訟を起こされている。

オープンになろう

このような法的紛争を回避するため、Project OpenBytesでは、データモデル、フォーマット、ラベル、その他の仕様をコミュニティ仕様ライセンス契約1.0に基づいて公開することを義務付けます。その他の関連条件は、プロジェクトのガバナンス文書に記載されています。

AIやMLのデータセットを扱う多くの大企業は、既に同様の規制の下で事業を展開しているか、少なくともそう主張しています。しかし、Linux Foundationは、この意欲的なデータコモンズに対し、ベンダー中立的な監視を提供できると考えています。

Gravitiの創設者であるエドワード・クイ氏は声明の中で、多くのAIプロジェクトが実際のユースケースから得られる高品質なデータの不足により遅延していると述べた。「AI開発を進展させるには、より高品質なデータの取得が不可欠です」とクイ氏は述べた。「そのためには、協力とイノベーションに基づくオープンデータコミュニティが緊急に必要です。」

Cui 氏はThe Registerへの電子メールで、幅広いデータ形式、ファイル形式、注釈形式、メモリ内形式が可能だと述べた。

「特定のフォーマットについて話しているわけではありませんが、ユーザーが包括的かつ再利用可能な方法でデータ構造を定義できるようにするためのIDL(インターフェース定義言語)とコンパイラを公開する予定です。これにより、ユーザーは将来のモデルトレーニングでデータをより簡単に理解して再利用できるようになります。また、データ形式の変換にかかる計算コストを節約し、効率性を高めることができます」と氏は説明した。

このアプローチの利点は、リソースを集中的に消費するデータ準備が少なくなることです。

「コミュニティが標準的なデータ処理手順を策定できれば、一定の保証は満たされるでしょう」と崔氏は述べた。「これらの手順で生成されたデータは、それ以上のクリーニングや準備を必要としません。」

崔氏は、データ形式だけでは責任リスクを軽減するには不十分だと述べた。「しかし、標準の確立、ライセンスの促進、そしてデータ共有における中立的なガバナンスは、その可能性を秘めています。データ標準とフォーマットの設定は、品質管理メカニズムの構築とデータ配信プロセスの円滑化の一環です」と彼は述べた。

データ標準には、適切なライセンスの登録、データの機密性低下、データセット情報の提供、公開前のデータ利用目的の制限など、複数の手順が含まれます。例えば、公開前に機密性低下が必要なデータをフィルタリングする、データにライセンス制限がある場合は法的チェックを追加する、プライバシー情報やセンシティブなコンテンツの取り扱い方法を標準化するなどです。私たちはコミュニティと協力してガイドラインを策定し、パブリッシャーとユーザーの両方の責任リスクを軽減する計画を立てています。

Cui 氏によると、OpenBytes プロジェクトは、参加コミュニティの協力を得て、データの品質を確保するためのガイドラインを確立することを目的としている。

「出版社と利用者は、それぞれのデータ公開プロセスにおいて、同じグッドプラクティスに従う必要があります」と彼は説明した。「言語モデルの場合、データバイアスの有無を理解する鍵は、データセットをOpenBytesプロジェクトが定義したベンチマークデータセットと比較することです。このような手順の準備と推進は、OpenBytesプロジェクトの範囲内です。」

信頼の問題

ニューヨーク大学タンドン校の電気・コンピュータ工学准教授シッダールタ・ガーグ氏は、共通のデータ形式とライセンスは役に立つかもしれないが、それが必ずしも信頼に関する懸念を解消するわけではないと述べている。

「機械学習のパイプラインで直面する最大の課題の1つは、データをどのように精査するかだ」とガーグ氏はThe Registerとのインタビューで語った。

信頼できないソースからデータセットを入手した場合、その信頼できないプロバイダーが、そのデータセットでトレーニングされたニューラルネットワークや機械学習アルゴリズムに誤解を招いたり、意図しない誤動作を誘発したりすることを目的とした特殊な特性を持つデータサンプルをいくつか持ち込む可能性があります。こうしたデータサンプルの中には、非常に微妙で診断が極めて困難なものもあります。

  • オープンソース求人レポート:クラウドの爆発的な成長により、Linuxは求められるスキルセットのトップの座から転落
  • Linuxの30年:OSが成功したのはライセンス方法によるものだとRed Hatは語る
  • オープンソースソフトウェアは開発者から始まりますが、他にも重要な貢献者がいます。具体的には誰でしょうか?いい質問ですね。
  • エディンバラ大学のコンピュータ科学者は「アリス」と「ボブ」なしの授業を検討している

AI/ML研究者向けに、すぐにデプロイ可能な事前学習済みモデルを提供する「モデルズー」と呼ばれるサービスが既に存在します。しかし、ガーグ氏によると、これらの多くはセキュリティ面で十分な対策を講じていないとのことです(ガーグ氏が共著した論文[PDF]にも記載されています)。「例えば、これらのサービスではモデルのハッシュ値が不正確で、新たな脆弱性につながる可能性があります」とガーグ氏は指摘しています。

「標準があるのは良いことだと思います。ライセンスなどに加えて、基本的なセキュリティ機能が標準に組み込まれていることを期待しています。」

AIシステムを表す巨大な頭を構築している人々のイラスト

MCubedのウェブ講義でAIアプリの信頼を構築する方法を学びましょう

詳細はこちら

AI/MLコミュニティにおいて、人々が作成したデータに対して公正な報酬とクレジットを得られるかどうかという問題もあると彼は述べた。ガーグ氏によると、ライセンス制度によってこの問題は解決できるが、モデルの整合性、つまり改ざんの可能性への対処はより根本的な問題だという。

また、ある目的のために収集されたデータ モデルが、意図しない結果を招くことなく別の目的に実際に適用できるかどうかという、より微妙な懸念もあります。

「データセットに存在する意図的あるいは無意識的なパターンから、モデルは他にどのような振る舞いを継承しているのでしょうか?」とガーグ氏は述べた。「ここでより大きな問題は、因果関係のある振る舞いを学習するようにモデルを訓練するのが難しいということです。最終的には、意図的に挿入された、あるいは意図しない、あらゆる種類の偽の相関関係を学習することになります。」®

Discover More