訓練されたニューラルネットワークから誰かの個人情報を削除するのは困難だ。すべてが台無しになる可能性が高い。

Table of Contents

訓練されたニューラルネットワークから誰かの個人情報を削除するのは困難だ。すべてが台無しになる可能性が高い。

AIシステムは奇妙な記憶力を持っています。機械は学習に使用したデータに必死に固執するため、そのデータの一部を削除することが困難です。実際、より新しく、より小さなデータセットを使って、最初から完全に再学習しなければならないことも少なくありません。

欧州のGDPR規則のようなプライバシー対策の下で、個人が企業のデータベースから個人データの削除を要求できる時代に、これは通用しません。既に学習済みの機械学習から個人の機密情報をどのように削除すればよいのでしょうか?2017年に法学・政策学の研究者が発表した研究論文は、それが不可能である可能性さえ示唆しています。

「機械学習モデルのほとんどは複雑なブラックボックスなので、データポイントやデータポイントのセットが実際にどのように使用されているかが明確ではないため、削除は困難です」とスタンフォード大学の生物医学データサイエンス助教授、ジェームズ・ゾウ氏はThe Registerに語った。

特定のデータを除外するためには、多くの場合、より新しく、より小さなデータセットでモデルを再学習する必要があります。これは費用と時間がかかるため、非常に面倒です。

AWS DeepLensは機械学習を始める開発者向けです

AWSのアップグレードされたDeepLens AIカメラがヨーロッパにズームイン

続きを読む

スタンフォード大学の博士課程学生であるアントニオ・ジナート氏が率いるこの研究は、機械学習モデルにおけるデータ削除の問題を研究し、分類器を開発するための機械学習手法であるk平均法クラスタリングモデルにおいて、6つの異なるデータセットからデータを削除する「証明可能な削除効率アルゴリズム」を2つ構築することに成功しました。この研究成果は、今週arXivに掲載された論文で発表されました。

重要なのは、学習済みモデルからデータを削除することの影響を評価することです。場合によっては、システムのパフォーマンスが低下する可能性があります。

「まず、データポイントを削除することで機械学習モデルに何らかの影響が出るかどうかを素早く確認します。影響が出ない設定もあるので、この確認は非常に効率的に行うことができます。次に、削除するデータが学習システムのローカルコンポーネントにのみ影響し、ローカルでのみ更新されるかどうかを確認します」とゾウ氏は説明した。

特定の状況下、つまりデータを容易に分離できる場合、k-meansクラスタリングモデルでは問題なく機能するようです。しかし、現代のディープラーニングモデルのように決定論的ではないシステムでは、データを削除するのは非常に困難です。

しかし、ゾウ氏は完全に不可能ではないと述べた。「今のところツールはありませんが、今後数ヶ月以内に削除ツールを開発したいと考えています。」®

Discover More