AIは有害なコメントを吐き出すオンライン荒らしを阻止するのが苦手

Table of Contents

AIは有害なコメントを吐き出すオンライン荒らしを阻止するのが苦手

新たな研究により、AI がオンライン荒らしへの対処にどれほど不向きであるかが明らかになった。

こうしたシステムは、ヌードや暴力を自動的に検出するのに苦労し、偽のニュースを打ち消すほどテキストを理解できず、キーボードの後ろに隠れている荒らしによる攻撃的なコメントを検出するのにも効果的ではありません。

アールト大学とパドヴァ大学の研究者グループは、ヘイトスピーチ検出に使用される7つの最先端モデルをテストした結果、このことを発見しました。arXivに掲載された論文[PDF]によると、これらのモデルはすべて、微妙な変化が加えられた場合、汚い言葉を認識できなかったとのことです。

敵対的例は、特定の単語のスペルを間違えたり、文字を数字に置き換えたり、単語の間にランダムなスペースを追加したり、文章に「love」などの無害な単語を追加したりするアルゴリズムを使用して自動的に作成できます。

モデルは敵対的サンプルを検知できず、検出をうまく回避しました。これらのトリックは人間を騙すことはできませんが、機械学習モデルは簡単に不意打ちを受けます。学習過程で与えられた情報以上の新しい情報に容易に適応することができないのです。

「これらのモデルは、学習に使用したのと同じ種類のデータでテストした場合にのみ優れたパフォーマンスを発揮します。これらの結果に基づき、ヘイトスピーチ検出を成功させるには、モデルアーキテクチャよりもデータの種類とラベリング基準が重要であると主張します。さらに、提案されたすべての検出手法は、(自動的に)タイプミスを挿入したり、単語の境界を変更したり、元のヘイトスピーチに無害な単語を追加したりできる攻撃者に対して脆弱であることを示しています」と論文の要約には記されています。

有害な言葉遣いを嗅ぎ分ける問題は、通常、分類の問題に帰着します。この文には、罵り言葉や人種差別的・性差別的な中傷表現は含まれていますか?

GoogleのAPI Perspectiveは、テキストがヘイト的かどうかを判定するためのスコアを計算します。しかし、単純な分類問題に絞り込むことで、誤検知(文章に不快な表現が含まれていても、全体的な意味は無害な場合)が生じる可能性があります。

敵対的な言語

GoogleのPerspectiveモデルの脆弱性を示す誤検知の例。画像提供:Gröndahl他

研究者たちは礼儀正しすぎて、「ここでは『F』でマークされているが、実際の実験では元の形で使用された一般的な英語の罵り言葉」を置き換えました。お分かりでしょう。

研究者らによると、「攻撃の有効性はモデルやデータセットによって異なったが、7つのヘイトスピーチ分類器すべてのパフォーマンスはほとんどの攻撃によって大幅に低下した」という。

最も弱いモデルは、単語ごとに文章を検査するモデルです。単語間にスペースを追加するといった小さな変更は見落とされてしまうからです。単語を個々の文字に分解するモデルは、攻撃の認識において若干優れています。

トロル

Googleのトロール除去AIはタイプミスに対処できない

続きを読む

「単語ベースと文字ベースのモデルの大きな違いは、前者は少なくとも1回の攻撃で完全に破られるのに対し、後者は一度も完全に破られることがなかったことだ」と研究チームは述べた。

研究者らは、今後の研究はモデルを攻撃に対してより堅牢なものにすることに重点を置くべきだと述べた。開発者はアルゴリズムそのものよりも、訓練データセットにより注意を払うべきだと彼らは主張した。

「したがって、今後の研究はモデルではなくデータセットに焦点を当てるべきだと我々は提案する。人種差別、性差別、個人攻撃など、様々な種類のヘイトスピーチを示唆する言語的特徴、そしてヘイトスピーチと単なる不快なスピーチの違いを比較するために、さらなる研究が必要である」と論文には記されている。®

Discover More