AIチャットボットをリバースエンジニアリングして、ナンセンス、卑猥な情報、または機密情報を吐き出すことは可能だ

Table of Contents

AIチャットボットをリバースエンジニアリングして、ナンセンス、卑猥な情報、または機密情報を吐き出すことは可能だ

ミシガン州立大学とTAL AIラボの研究者によると、機械学習チャットボットシステムは、会話内容を制御するために悪用される可能性があるという。

「これらのモデルには暗い側面がある。ニューラルネットワークの脆弱性により、ニューラル対話モデルはユーザーが望むことを言うように操作される可能性があり、実際のチャットボットサービスのセキュリティに関する懸念が生じる」と研究者らはarXivで公開された論文(PDF)に記している。

彼らは、特定の出力に一致する様々な入力を吐き出す「逆対話生成器」(RDG)を開発しました。テキストベースのモデルは通常、入力を与えられた後に出力を生成するという逆の動作をします。例えば、「こんにちは、お元気ですか?」という文章を与えられた場合、コンピューターは「元気です、ありがとうございます」のような返答を出力するように学習します。これは、トレーニングデータにおいて、この返答が質問に対する最も一般的な返答の一つであることを学習するためです。しかし、RVGは逆の動作をします。

ai_チャットボット_論文

RDGエージェントは、ターゲット出力に一致する入力を生成する役割を担っています。対話モデルは、攻撃者が探ろうとしている別のチャットボットです。画像クレジット:Liu et al.

この場合、エージェントはチャットボットに「明日そこに行きます!」という出力に最もよく一致する入力を見つけようとしています。これは、エージェントがチャットボットに言わせたい言葉だからです。エージェントのパフォーマンスを確認するために、同じ入力「パーティーに参加しますか?」を別の対話モデル(悪意のある人物が介入しようとしているモデル)に与え、出力が実際に目的の出力と似ているかどうかを確認します。

2つの値が似ている場合、エージェントは適切な入力を生成することに成功しており、攻撃者はチャットボットに何を言えば望ましい出力を返させるかを知っていることになります。つまり、チャットボットモデルは「そこに行きます」と返答しますが、これは「明日そこに行きます!」にかなり近い意味です。

ここで使われている例はかなり無害ですが、もしチャットボットが人種差別的または性差別的な発言を強いられるとしたらどうなるでしょうか。マイクロソフトのインターネットチャットボット「Tay」がどうなったかを見てください。研究の共著者でミシガン州立大学の博士課程学生であるHaochen Liu氏は、The Register紙にこう語りました。 「すべては学習データの内容次第です」。

対話システムを操作して特定の悪意のある応答を出力できるかどうかは、対話モデルの構築に使用したコーパスに依存します。対象となる悪意のある応答に、学習セットに一度も出現しない単語が含まれている場合、その単語はモデルの語彙に含まれていないため、モデルを操作してそのような単語を出力させることは不可能です。

悪意のある人物が構築したエージェントが、操作しようとしているチャットボットと同様の動作をすることが重要である。「逆対話生成器に類似したアーキテクチャを用いることで、対話モデルの逆マッピングを発見できる可能性が高まります」とLiu氏は述べた。このプロジェクトでは、調査対象のチャットボットはFacebookのParlAIモデル上に構築されており、RDGはどちらもディープラーニングにおけるテキストのエンコードとデコードに用いられる一般的なアーキテクチャであるseq2seqモデルに基づいている。

このエージェントはTwitter上の250万件の人間の会話で学習されています。入力と出力のペアを作成するために、単一のツイートとその単一の返信のみが考慮されます。RDGの学習には強化学習が使用され、生成された入力が与えられた入力と適切に一致する場合、高いスコアが与えられます。

「私たちの手法の設計に基づいて」と劉氏は述べた。「対話システムと十分な回数対話できる限り、逆対話生成器は出力が与えられた場合に入力を復元するパターンを学習できます。そのため、この手法は、Twitterの対話であれ他の対話であれ、あらゆるデータセットでトレーニングされた対話モデルで柔軟に動作するように設計されているのです。」®

Discover More