GPT-4は人間よりも迅速かつ一貫してオンラインコンテンツのモデレーションを行うことができると、モデルの開発元であるOpenAIは主張している。
昨今のテクノロジー企業は、ユーザーが共有する問題のあるコンテンツを特定、削除、またはアクセス制限するために、アルゴリズムと人間のモデレーターを組み合わせ、一般的に活用しています。機械学習ソフトウェアはヌードを自動的にブロックしたり、有害な発言を分類したりできますが、ニュアンスやエッジケースを理解できず、過剰反応して無害なコンテンツまで禁止したり、有害なコンテンツを完全に見逃したりすることがあります。
そのため、アルゴリズムやユーザーによってフラグが付けられたコンテンツを審査し、削除するか残すかを判断するために、処理パイプラインのどこかに人間のモデレーターが必要です。GPT-4はテキストを分析し、ユーザーのコメントを含むコンテンツを自動的にモデレートするようにトレーニングできるため、「人間のモデレーターの精神的ストレス」を軽減できると言われています。
AIは、指示されると摂食障害に関する「危険な」コンテンツを生成する可能性がある
続きを読む
興味深いことに、OpenAIは、コンテンツポリシーの開発とコンテンツモデレーションの判断に既に独自の大規模言語モデルを使用していると述べています。簡単に言うと、このAIスーパーラボは、GPT-4がコンテンツモデレーションポリシーのルールの改良にどのように役立つかを説明しており、その出力は、自動モデレーションの実際の役割を担うより小規模な分類器の学習に使用できるということです。
まず、チャットボットには、例えば性差別的・人種差別的な言葉や卑猥な言葉などを排除するためのモデレーションガイドラインが与えられます。これらの指示は、適切に機能するためには入力プロンプトに注意深く記述する必要があります。次に、コメントやコンテンツのサンプルからなる小規模なデータセットが、これらのガイドラインに従って人間によってモデレートされ、ラベル付きデータセットが作成されます。GPT-4にもこのガイドラインがプロンプトとして与えられ、テストデータセット内の同じテキストをモデレートするように指示されます。
人間が生成したラベル付きデータセットをチャットボットの出力と比較し、どこが不適切だったかを確認します。ユーザーはガイドラインと入力プロンプトを調整し、特定のコンテンツポリシールールの遵守方法をより適切に説明できます。そして、GPT-4の出力が人間の判断と一致するまでテストを繰り返します。GPT-4の予測は、より小規模で大規模な言語モデルを微調整し、コンテンツモデレーションシステムを構築するために活用できます。
OpenAIは例として、「車を盗むにはどうすればいいですか?」という質問を受けるQ&A形式のチャットボットシステムの概要を示しました。与えられたガイドラインでは、この仮想プラットフォームでは「非暴力的な不正行為に関するアドバイスや指示」は許可されていないため、ボットはそれを拒否するはずです。GPT-4は、機械生成した説明の中で「このリクエストはマルウェアの生成、麻薬密売、破壊行為に言及していない」ため、質問は無害であると提案しました。
そこでガイドラインは更新され、「財産の窃盗を含む非暴力的な違法行為に関する助言や指示」は許可されないことが明確になりました。GPT-4はこの質問がポリシーに違反していることを認め、却下しました。
これは、GPT-4を用いてガイドラインを洗練させ、大規模なモデレーションを実行できるより小規模な分類器を構築するための意思決定を行う方法を示しています。ここでは、精度と信頼性ではあまり知られていないGPT-4が、当然ながらこれを実現するのに十分な性能を発揮すると仮定しています。
人間的な触れ合いは依然として必要だ
OpenAIは、同社のソフトウェアは人間よりも迅速にコンテンツをモデレートし、ポリシーの変更や明確化が必要な場合にも迅速に対応できると考えている。同社の主張によれば、人間のモデレーターは再訓練が必要だが、GPT-4は入力プロンプトを更新することで新しいルールを学習できるという。
「GPT-4を使用したコンテンツモデレーションシステムにより、ポリシー変更の反復が大幅に高速化され、サイクルが数か月から数時間に短縮されます」と、同研究所のリリアン・ウェン、ヴィク・ゴエル、アンドレア・ヴァローネの3氏は火曜日に説明した。
「GPT-4 は、長いコンテンツ ポリシー ドキュメント内のルールとニュアンスを解釈し、ポリシーの更新に即座に適応できるため、より一貫性のあるラベル付けが可能になります。
これは、AIがプラットフォーム固有のポリシーに従ってオンライントラフィックのモデレーションを支援し、多数の人間のモデレーターの精神的負担を軽減する、デジタルプラットフォームの未来にとってより明るいビジョンを提示するものだと考えています。OpenAI APIにアクセスできる人なら誰でも、このアプローチを実装して独自のAI支援モデレーションシステムを構築できます。
- プロンプトインジェクション攻撃が今日の最先端AIを乗っ取る仕組みと修正の難しさ
- 精神的に傷ついたケニアの労働者がChatGPTに攻撃的なテキストを認識させる
- Googleのトロール除去AIはタイプミスに対処できない
- Google がオンライン荒らしを撲滅へ… トラララ!機械学習!
OpenAIは、ChatGPTの有害性を軽減するためにケニアで作業員を雇用したことで批判を浴びています。人間のモデレーターたちは、数万件ものテキストサンプルを性差別的、人種差別的、暴力的、そしてポルノ的な内容がないか審査する任務を負っていましたが、時給はわずか2ドルだったと報じられています。中には、長期間にわたりわいせつなNSFWテキストを審査したことで、精神的に不安定な状態になった人もいました。
OpenAIによると、GPT-4はコンテンツの自動モデレーションに役立ちますが、この技術は完全ではないため、依然として人間による操作が必要です。過去に示されたように、有害なコメントのタイプミスは検出を逃れる可能性があり、プロンプトインジェクション攻撃などの他の手法によってチャットボットの安全対策が無効化される可能性もあります。
「コンテンツポリシーの開発とコンテンツモデレーションの決定にGPT-4を使用することで、より一貫性のあるラベル付け、ポリシー改良のためのより速いフィードバックループ、そして人間のモデレーターの関与の低減が可能になります」とOpenAIのチームは述べています。®