AIの決断の時:正確さは必ずしも味方ではない

Table of Contents

AIの決断の時:正確さは必ずしも味方ではない

機械学習とは、機械が意思決定を行うことであり、すでに述べたように、特定の問題に対して複数のモデルを作成し、その精度を測定することができます。直感的に最も精度の高いモデルを選択するのは明らかであり、もちろん多くの場合、実際にそうしています。

ロボットの思考。

あなたの機械は本当に何かを学習しましたか? スナップクイズの時間です

続きを読む

しかし、実際には、より精度の低いものを選択することもあります。その根本的な理由は、精度に関する推定は非常に有用ではあるものの、正しい場合と間違っている場合のコストを考慮していないからです。

これまでの話をまとめると、衣料品ウェブサイトの顧客のうち、誰が女性で誰が男性かを識別し、レコメンデーションエンジンが適切な衣料品を提案できるようにするとします。モデルが特定の個人について正しい判断を下すには、2つの方法があります。

  • 女性を正確に予測する - これを真陽性と呼ぶ
  • 男性を正確に予測する – 真陰性

また、次の 2 つの点でも間違っている可能性があります。

  • 顧客が実際には男性なのに女性と予測する – 誤検知
  • 顧客が女性なのに男性と予測する – 偽陰性

この場合、女性という識別は肯定的であると仮定していることに注意してください。男性という識別が肯定的であると仮定した場合も、論理は同様に機能します(クラスが逆になることを除けば)。

さて、2つの機械学習モデルがあるとします。1つは女性と男性の両方で95%の正解率を得ます。もう1つは男性の正解率は97%ですが、女性の正解率は87%にとどまります。ROC*空間で見ると、最初のモデル(青)の方が左上隅に近いため、明らかに優れています。

ROC3

ROC空間:ほぼ完璧な機械モデル

しかし、仮に(これは単なる仮定ですが)、あなたのアルゴリズムが男性を女性と誤認し、女性用の服を勧めたら、ほとんどの男性はもうあなたのサイトで買い物をしなくなるでしょう。逆に、あなたのシステムが女性に対して同じ間違いをしても、彼らはたいてい忠実な顧客であり続けるでしょう。

したがって、この場合、偽陽性の結果/コストは偽陰性の結果をはるかに上回り、全体的な精度が低くても 2 番目のアルゴリズムを優先する可能性があります。

一部の男性の脆弱な自尊心を守ろうとするのは結構なことだが、危険度が増すにつれ、偽陰性と偽陽性の異なるコストを考慮に入れる理由がますます増えている。

ひどいアルゴリズムだ!まあ、

例えば、アルゴリズムが膨大なデータから、ある人が病気にかかっているかどうかを判断しているとします。偽陽性(実際にはその人は健康であるにもかかわらず、アルゴリズムは病気と判定する)の場合、50ポンドの治療費が無駄になる可能性があります。偽陰性(実際には感染しているにもかかわらず、アルゴリズムは健康であると判定する)の場合、その人の死につながるだけでなく、その人による感染拡大によって、例えば100件もの症例が新たに発生する可能性があります。

たとえ私たちのアルゴリズムの効率が98%だとしても、100人のうち2人は検出されず、さらに200人に感染させてしまうでしょう。まるで、誤検知と誤検出の「コスト」があまりにも不均衡なせいで、疫病が発生しているようです。

したがって、心に留めておくべきことの 1 つは、ROC 空間 (すばらしいものですが) では、発生する 2 種類のエラーのコストが考慮されないということです。

また、アルゴリズムの効率性と、特定のケースでアルゴリズムが機能する確率は同じではないことにも留意する必要があります。

次のようなシナリオを想像してみてください。保険金不正請求を検知しようとしています。アルゴリズムを開発、訓練、テストした結果、99%の効率性があることがわかりました。この効率性は対称的です。つまり、不正請求を99%の確率で正しく識別し、正当な請求も99%の確率で正しく検出できるということです。

そこでアルゴリズムを本番稼働させ、新しい請求が届くたびに入力し始めました。他の研究結果から、不正な請求は1,000件に1件程度であることが分かっているため、ほとんどの請求は正当な請求としてフラグ付けされます。辛抱強く待つと、3日後に1件の請求が不正としてフラグ付けされます。重要な疑問は、「その請求が実際に不正である可能性はどれくらいか?」ということです。

明らかに99%という答えは明白ですが、同時にそれは間違った答えであることも明らかです。そうでなければ、私はこの質問をしなかったでしょう。正しい答えは、不正である可能性は99%ではなく、約9%程度だということです。ここまで読んで、読むのをやめて、ご自身で考えてみてはいかがでしょうか。

簡単な方法の一つは、例えば100万件の請求から始めて、問題を一つずつ解いていくことです。100万件のうち、不正なものは何件(1000件に1件は不正だと仮定)で、正直なものは何件でしょうか?各グループのうち、正しく分類されているものと誤って分類されているものはいくつあるでしょうか?不正と分類されたもののうち、実際に不正なものは何件あるでしょうか?

では、100万件の請求から始めましょう。1,000件のうち1件は不正であることが分かっているので、1,000件は不正で、999,000件は正当な請求です。

まず、不正な1,000件に注目してみましょう。アルゴリズムの精度は99%なので、990件は正しく分類されます。つまり、不正であるにもかかわらず、アルゴリズムは正しく判定します(真陽性)。10件は不正ですが、アルゴリズムは正直であると判定します(偽陰性)。

さて、999,000件の正直なクレームです。99%(989,010件)は正しく分類されています。つまり、正直であり、アルゴリズムもそれに同意しています(真陰性)。1%(9,990件)は正直ですが、アルゴリズムは不正と判断しています(偽陽性)。

私たちが注目するのは、アルゴリズムによって不正と判定された請求のみです。1,000,000件の請求のうち、アルゴリズムは990 + 9,990 = 10,980件を不正と判定します。ただし、これらのうち実際に不正なのは990件(約9%)のみであることに注意してください。

さて、3日間の待機期間と、不正と判定された最初の請求の話に戻りますが、アルゴリズムの精度は99%であるにもかかわらず、不正である確率は実際にはわずか9%程度です。

これは一見直感的ではないかもしれませんが、正しいのです。そして、本当に機械学習に携わりたいのであれば、この単一の問題を解けるようになるだけでなく、それがどのように、そしてなぜ機能するのかを理解することが重要です。

そこで、問題を禅的な理解へと導くための、もう一つの難問をご紹介します。この場合、アルゴリズムの効率は99%なので、直感的に99%を期待しますが、実際には9%しか得られません。

得られた数値が予想と異なる要因は何でしょうか?

答え:それは、ある請求が不正である確率です。この場合、1,000分の1です。この数値を変えると、ある請求が不正である確率は増減します。次の質問:ある請求が不正である確率はどれくらいあれば、期待される答えである99%が得られるでしょうか? 答えはあなた次第です。®

* 受信者動作特性 (ROC) 曲線 – さまざまなしきい値設定における真陽性率と偽陽性率 (FPR) のグラフ。

10 月 15 日から 17 日までロンドンで開催される Minds Mastering Machines で、機械学習、人工知能、データ分析、そしてそれらがあなたにとってどのような意味を持つのかを検討します。詳細なプログラムとチケット情報については、Web サイトをご覧ください。

Discover More