危険すぎて公開できなかったOpenAIのテキスト吐き出しツールを覚えていますか？心配しないでください。科学者たちがそれを検出するBS検出器を開発しました。

「イーロン・マスクが支援する科学者が、公開するには危険すぎる AI テキストジェネレーターを作成した」というニュースに恐怖を感じたのなら、その恐怖を和らげてくれるものがある。

先月、OpenAIは、一見すると説得力のある偽のテキスト（ニュース記事、エッセイ、電子メール、インスタントメッセージなど）を、事実やバランスを考慮せずに与えられた文章プロンプトから大量に生成できる機械学習ベースの言語システムについて説明した論文を発表しました。

それは事実上、自動ランターのようなもので、2000年代のBlogspotやLiveJournalの投稿に最適でした。何百万ものウェブページから学習されたことを考えれば、それも当然です。生成された単語には、多くの繰り返し、不明瞭な文法、矛盾など、コンピューターによって作られたという明らかな兆候がありました。人間のキーボード戦士たちと並んで、インターネット上でも違和感なく溶け込んでいたでしょう。

OpenAIは、このシステムが悪意のある人物に悪用され、大量の偽ニュース記事や、説得力のあるスパムメール、フィッシングメールを大量に作成される可能性を懸念し、完全なモデルの公開を拒否した。代わりに、カリフォルニアの非営利研究拠点である同研究拠点は、一般の人々が自由に使えるように、GPT-2 117Mと名付けられた、より簡略化されたバージョンを公開した。

現在、MIT-IBMワトソンAIラボと米国ハーバード大学の研究者2名が、このデータを用いて、テキストが実際にGPT-2 117Mのような機械によって生成されたものか、それとも人間または非常に人間に近いアルゴリズムによって書かれたものかを確認するツールを開発しました。このツールは、GPT-2 117Mが生成した意味不明なテキストをメッセージから除去したり、生成されたウェブ記事にフラグを付けたりするのに役立ち、ニューラルネットワークの脅威を弱める可能性があります。

彼らはこのキットを「Giant Language model Test Room」（略してGLTR）と呼んでいます。このライブオンラインデモにテキストの一部をコピー＆ペーストすると、GPT-2 117Mが文中の各単語をどの程度確率で選択したかを推定し、カラーコードシステムを用いて表示します。

緑は、GPT-117Mによって選択された可能性のある上位10個の出力候補に含まれる単語を意味します。黄色は次の上位100個の単語、赤は次の1,000個の可能性をまとめた単語、紫は上位1,000個の推奨候補を超えた単語を表します。

たとえば、この記事の冒頭文の下書きを検出器に通すと、次のような結果が返されます。

GLTR_1_例

緑色が多い場合は、テキストが機械によって生成された可能性が高いことを意味します。赤または紫で色分けされた単語は、GPT-2 117Mで使用されそうにない単語です。

ふう。文の半分くらいが黄色、赤、紫でハイライトされている。これは、ありがたいことに、この謙虚なEl Regの筆記者がAIボットのように書きすぎていないこと、そして大量のニュース記事で訓練されたAIボットが我々ハゲタカと全く同じ書き方をしていないことを意味する。例えば「terrified（恐ろしい）」という単語は、OpenAIモデルが選択する可能性が低いため、赤くハイライトされている。

事実上、MIT、IBM、ハーバードの2社はGPT-2 117Mを自らに向けました。

「コンピューターで生成されたテキストは、それぞれの位置で最も可能性の高い単語に固執することで人間を騙すと仮定しています」と研究者のヘンドリック・ストロベルト氏とセバスチャン・ゲールマン氏は説明した。

「対照的に、自然な文章では、実際には、その分野に意味を持つ予測不可能な単語がより頻繁に選択されます。つまり、文章が人間の書き手によるものである可能性が非常に高いかどうかを検出できるということです。」

GLTR_2_例

いい試みだ、AI... 君の姿が見えるよ。

GPT-2 117Mによって生成されたユニコーンに関するサンプルテキストを入力すると、単語の壁は主に緑色で色分けされ、黄色と赤のハイライトがいくつか、そして紫色のハイライトが2つだけありました。これは「これが生成されたテキストであることを強く示す指標」だと研究者たちは述べています。

スパムボットと戦うのがうまくいくことを祈る

「私たちは強力なニューラルモデルの悪意ある使用の防止と検出に非常に気を配っています」と、MIT-IBMワトソンAIラボの研究科学者ストロベルト氏とハーバード大学博士課程の学生ゲールマン氏はThe Registerに語った。

視覚化とモデリングにおける専門知識を組み合わせることで、偽造テキストの検出を容易にすることを目指しました。GLTRは、大規模な言語モデルをベースにシンプルな視覚化技術を用いることで、可能性を示すコンセプトショーです。自動生成される偽造テキストの検出という重要な課題に対処するための、新たなアルゴリズムと視覚的なアイデアを生み出すツールになると考えています。

しかし、彼らはいくつかの限界も指摘しています。OpenAIのGPT-2のようなツールの基盤となるインフラが、ソーシャルメディア上の偽ボットアカウントのサンプルを数百、数千も自動生成するように構築されていたとしたら、現状のGLTRでは、個々のケースを1つずつしか分析できないため、それらすべてを十分な速さでチェックすることはできません。しかし、ライブウェブデモを超えてスケールアウトできれば、より高度な機能を提供できると考えています。

「このツールは、GPT-2で使用されるアプローチが、特定のコンテキストで非常にまれな単語やありそうもない単語を生成しないため、一部のサンプルに顕著な指紋を残すことを明らかにしています」とOpenAIの広報担当者はEl Regに語った。「GLTRツールが、GPT-2から他のアプローチで生成されたサンプルの検出にも機能するかどうかは不明です。」

ストロベルト氏とゲールマン氏は、GLTRはGPT-2のような言語モデルが単純なサンプリング手法を用いてテキストを予測するという事実を悪用することで機能することに同意した。「攻撃者は、模倣しようとしている言語に似せるために、単語や文ごとにサンプリングパラメータを変更する可能性があります」と彼らは述べた。

しかし、敵対的サンプリング方式では、モデルが不適切と判断した単語を生成せざるを得なくなるため、テキストの品質が低下する可能性があると推測しています。これは、テキスト内の他の検出可能な特性につながる可能性があります。したがって、GLTRには限界があるものの、より大規模に機能する同様のアイデアの開発を促進する可能性があると考えています。

GLTRはGPT-2 117Mに対しては十分に機能しているように見えますが、他のソフトウェアによって作成された文章を必ずしも検出するとは限りません。光学を専門とし、ニューラルネットワークを扱うのが好きな研究者のジャネル・シェーン氏は、自身のニューラルネットワークで生成したサンプルをGLTRに入力したところ、テキストがAIらしくないと判断されたことを発見しました。

AIが書いたテキストを検出する新しいツールを見てみました。どうやら、私のニューラルネットワークが生成したテキストは予測不可能なほど支離滅裂で、人間のテキストとして認識されてしまうようです。
（紫＋赤＝予測不可能。これがたくさんある＝おそらく人間のテキスト）https://t.co/OdIdaZQ8s6 pic.twitter.com/CfwM4fRFoh
— ジャネル・シェーン（@JanelleCShane）2019年3月8日

「ニューラルネットが生成したテキストがGLTRを騙したのは、あまりにも奇妙で予測できなかったからだと思います。GLTRが学習した文法規則に従わず、奇妙なフレーズや脈絡のない文章を挿入し続けました。GLTRはもっとありふれたテキストを予測することを学んでいたのです」とシェーンはエル・レグ紙に語った。

それでも、OpenAIは「合成テキスト生成の検出という問題に取り組み始めるために人々がツールを構築することが重要であり、ここで行われている作業を見て興奮している」と述べた。

ここでGLTRを試してみることができます。®

危険すぎて公開できなかったOpenAIのテキスト吐き出しツールを覚えていますか？心配しないでください。科学者たちがそれを検出するBS検出器を開発しました。

Table of Contents

スパムボットと戦うのがうまくいくことを祈る

Discover More

ヒルトンホテルのメールはフィッシングに酷似しており、社内の技術者を騙した

DoH導入へ：Chrome 78でDNS-over-HTTPSの実験を実施 – Firefoxに続き

えっと、すみません。MRIスキャナーにパッチを当てる許可はお持ちですか？

Table of Contents

スパムボットと戦うのがうまくいくことを祈る

Smart Recommendations

Discover More