Googleのトロール除去AIはタイプミスに対処できない

Table of Contents

Googleのトロール除去AIはタイプミスに対処できない

Google の Perspective API は、Alphabet 傘下の Jigsaw と共同で作成されたもので、ソーシャル メディア内の「有害な」言語を自動的に検出する方法を提供するとされている。

しかし、ワシントン大学の研究者であるホセイン・ホセイニ氏、スリーラム・カンナン氏、バオセン・チャン氏、ラダ・プーヴェンドラン氏は、機械学習ソフトウェアは故意のエラーによって騙される可能性があることを発見した。

「さまざまな実験を通じて、攻撃者は悪意のある単語のスペルを間違えたり、文字の間に句読点を追加したりすることでシステムを欺くことができることを示した」と4人の研究者は最近発表した論文「有害なコメントを検出するために構築されたGoogleのPerspective APIの欺瞞」に記している。

このAPIは、デジタルパブリッシャーがオンライン投稿に表現された感情をリアルタイムで評価できるようにすることを目的としています。投稿された単語はサーバーに送信され、分析され、スコアが返されます。これにより、パブリッシャーは投稿時に荒らし行為を検知し、オンラインでのやり取りを礼儀正しく保つために必要な措置を講じることができるようになります。

それが理論上の話です。実際には、他の自動コンテンツフィルタリング、マルウェア検出、スパム検出システムと同様に、Perspective も騙される可能性があります。

例えば、Perspectiveは「トランプに投票した人は誰でもバカだ」というフレーズの毒性値を80%と評価しました。このフレーズを「トランプに投票した人は誰でもバカだ」と書き換えると、毒性値は13%に低下しました。

UW研究からの展望データ

敵対的な意図を持ってアプローチすると、アルゴリズムは誤検知を強制され、無害なフレーズを攻撃的であると評価することもあります。

さらにシステムを弱体化させるものとして、Perspective インターフェースではユーザーが毒性スコアに関するフィードバックを提供できるようになっています。これにより、モデルポイズニング攻撃(攻撃的な言葉は問題ない、またはその逆)が可能になります。

このアルゴリズムの欠点は、ソフトウェアエンジニア兼ライターのデイビッド・アウアーバッハ氏によって以前指摘されていた。

Googleでさえ、自社のAIが少々不正確であることを認めています。PerspectiveのGitHubリポジトリでは、同社は「モデルがあまりにも多くのエラーを起こす」ため、このソフトウェアを自動モデレーションに使用しないよう明確に勧告しています。このプロジェクトは、将来的にコミュニティモデレーターが最も不適切なディスカッション参加者を特定できるように、改良される予定です。

ワシントン大学電気工学科長であり、ワシントン大学ネットワークセキュリティ研究所所長でもあるプーヴェンドラン氏は、The Register紙へのメールで、Perspectiveは知的な判断を下せるシステムというよりは、むしろ支援技術であることを認めた。「一部のタスクでは、人間の介入が必要になります」と彼は述べた。

研究者らは論文の中で、「機械学習モデルは一般に、クリーンなデータと安全な設定で最高のパフォーマンスを発揮するように設計されている」と述べている。

現実世界では、衛生や善意は当然のものとはなりません。機械学習には、まだまだ多くの学習が待ち受けています。®

Discover More