更新: Meta、Microsoft、Google、VMware などのテクノロジー大手の API トークンが Hugging Face で公開され、サプライ チェーン攻撃を受ける可能性があることが判明しました。
Lasso Security の研究者らは、オープンソースのデータサイエンスおよび機械学習プラットフォーム上で 1,500 個を超える公開された API トークンを発見しました。これにより、研究者らは 723 の組織のアカウントにアクセスできるようになりました。
大多数のケース(655件)において、公開されたトークンには書き込み権限があり、アカウントリポジトリ内のファイルを変更する権限が付与されていました。このようにして公開された組織は合計77あり、その中にはそれぞれLlama、Pythia、Bloomプロジェクトを運営するMeta、EleutherAI、BigScience Workshopが含まれています。
The Registerはコメントを求めて3社に連絡を取ったが、MetaとBigScience Workshopは記事掲載時点では返答しなかった。ただし、3社とも通知後すぐにセキュリティホールを塞いだ。
Hugging FaceはAI愛好家向けのGitHubのような存在で、数多くの大規模プロジェクトをホストしています。25万以上のデータセットと50万以上のAIモデルが保存されています。
研究者らは、攻撃者が公開された API トークンを悪用した場合、データの盗用、トレーニング データの改ざん、またはモデル全体の盗難につながり、100 万人以上のユーザーに影響を与える可能性があると述べています。
研究者らは、自らの研究だけで、毎月数万回ダウンロードされる14の異なるデータセットを変更するために必要なアクセスを実現できたと述べている。
Forcepoint社によると、この種のデータポイズニング攻撃は、AIとMLの台頭に伴い、最も深刻な脅威の一つとなっている。この攻撃はOWASPのLLMにおけるトップ10リスクに含まれており、様々な結果をもたらす可能性がある。
Google の Gmail 向けスパム対策フィルターは、その機能の基盤となる信頼性の高いトレーニング済みモデルのおかげで効果的だが、過去にはこうしたモデルが何度も侵害され、一見無害な悪意のあるメールがユーザーの受信トレイに送り込まれるという事態が起きている。
データポイズニングが組織に深刻な影響を及ぼす可能性があるもう一つの想定シナリオは、異なる種類のネットワークトラフィックを識別するデータセットが破壊された場合です。ネットワークトラフィックがメールやWeb閲覧などとして正しく識別されない場合、リソースの誤割り当てや潜在的なネットワークパフォーマンスの問題につながる可能性があります。
Lasso Security の研究者は、10,000 以上のプライベート モデルを盗むために必要なアクセス権も取得できました。これは、OWASP の AI セキュリティ リスク トップ 10 にも挙げられている脅威です。
「今回の侵害の影響は広範囲に及びます。Meta Llama 2、BigScience Workshop、EleutherAIへの読み取りと書き込みの両方の権限を含むフルアクセスに成功したため、これらの組織はすべて、何百万回もダウンロードされたモデルを所有しており、その結果、組織は悪意のある攻撃者による潜在的な悪用に対して脆弱な状態に置かれています」と、Lasso Securityのセキュリティ研究者であるBar Lanyado氏は述べています。
事態の深刻さは計り知れません。数百万件のダウンロード数を誇る組織を掌握することで、既存のモデルを操作し、悪意のある存在へと変える可能性を秘めています。これは深刻な脅威です。破損したモデルが注入されると、アプリケーション開発にこれらの基盤モデルを利用している数百万のユーザーに影響が及ぶ可能性があります。
Hugging Face で公開された API の影響を受けた高価値組織の数を示す、部分的に編集されたスプレッドシート – 画像提供: Lasso Security - クリックして拡大
公開されたAPIトークンは、研究者がプラットフォーム上で一連の部分文字列検索を実施し、手作業で収集した際に発見されました。その後、whoami Hugging Face APIを使用して、トークンの有効性、所有者、所有者のメールアドレス、所有者が所属する組織、そしてトークンの権限を特定しました。
API トークンの公開は、開発者が特定の関数で使用するためにトークンを変数に保存したが、コードをパブリック リポジトリにプッシュするときにトークンを非表示にし忘れた場合によく行われます。
GitHub にはこのような漏洩を防ぐための Secret Scanning 機能があり、すべてのユーザーが無料で利用できます。また、Hugging Face も同様のツールを実行して、プロジェクトにハードコードされた公開された API トークンについてユーザーに警告します。
Hugging Faceで公開された秘密情報を調査する中で、研究者らは、既に廃止が発表されていた組織APIトークン(org_api)にも脆弱性を発見しました。この脆弱性は、リポジトリへの読み取りアクセスやリソースへの課金アクセスに利用される可能性がありました。また、Hugging FaceのPythonライブラリでは、ログイン関数にトークンの種類をチェックする機能を追加することで、この問題をブロックしていました。
- AI生成画像1枚を作成するには、スマートフォンを充電するのと同じくらいの電力が必要です。
- CloudflareはGPUアクセラレーションワーカーを使用してネットワークエッジからAIを解放します
- Nvidia は AI で大儲けしたばかりですが、他社はどうなのでしょうか?
- 検索エンジンは必ずしもチャットボットが正確な回答を生成するのに役立つわけではない
「そこで、調査することにしました。確かに書き込み機能は動作しませんでしたが、どうやら、ライブラリのログイン機能に小さな変更を加えただけでも、読み取り機能は動作し、発見したトークンを使用して、Microsoft などの公開された org_api トークンを持つプライベート モデルをダウンロードすることができました」と Lanyado 氏はブログで述べています。
Lasso Securityは、影響を受けたすべての組織に連絡を取り、Meta、Google、Microsoft、VMwareなどの大手企業が同日に対応し、トークンを取り消してそれぞれのリポジトリからコードを削除したと述べています。
EleutherAIのエグゼクティブディレクター、ステラ・ビダーマン氏は次のように語っています。「私たちは、エコシステムの脆弱性を特定するという重要な仕事に携わる倫理的なハッカーに常に感謝しており、機械学習研究の安全性を促進するコミュニティの規範とベストプラクティスの構築に尽力しています。」
ビーダーマン氏は、EleutherAI、Hugging Face、Stability AIが最近協力して、攻撃者の改ざんを緩和するための新しいチェックポイント形式を開発したことを指摘し、「このような攻撃による被害は大幅に減少した」と述べた。
「私たちは、このような行為が不可能な代替チェックポイント形式(現在Hubでは標準)の開発に協力し、鍵漏洩のようなエクスプロイトによる被害を抑制しました」と彼女は付け加えた。「もちろん、鍵漏洩によってユーザーと組織の両方に深刻な被害が及ぶことは依然としてあり、私たちは常にそのような事態に目を光らせ、被害をさらに軽減する方法を模索しています。」®
2023年12月5日12:49 UTCに更新され、以下が追加されました:
この記事の公開後、Hugging Faceは同社の共同創設者兼CEOであるクレメント・デラング氏からの声明文を送付した。
トークンが流出したのは、ユーザーがHugging Face Hub、GitHubなどのプラットフォームにトークンを投稿したためです。一般的に、コードホスティングプラットフォームにトークンを公開しないことをお勧めします。
セキュリティ研究者によって検出されたHugging Faceトークンはすべて無効化されており、チームは今後この問題が再発しないように対策を講じており、今後も継続して実施していきます。例えば、エンタープライズハブで企業にトークンの権限をより細かく設定できるようにし、悪意のある行為を検出します。また、GitHubなどの外部プラットフォームと連携し、有効なトークンがパブリックリポジトリに公開されるのを防いでいます。
フォ