オーストラリアのセンターリンク債務回収システムのエラーは避けられなかった

Table of Contents

オーストラリアのセンターリンク債務回収システムのエラーは避けられなかった

センターリンクは昨年6月に未払い債務の取り締まりを発表して以来、オーストラリアの福祉受給者数千人に債務回収通知書を送付している。初期の報告では約20%が誤って発行されたとされているが、実際の数字ははるかに高い可能性がある。

このため先週、これほど多くの誤った手紙が送られた理由を調査するための上院委員会が任命された。

納税者のお金を節約するために政府がビッグデータに頼っていることについては議論があるが、その論評のどれもがエラー率の概念に隠された複雑さを理解していない。

Centrelink が採用しているシステムは人工知能の一例であり、同システムが直面している問題はあらゆる意思決定システムに内在するものです。

エラーの処理

数学者、コンピューター科学者、エンジニアは長年にわたりこれらの問題に取り組んでおり、誤差を定量化する方法や、誤差の相対的な重要性のバランスをとるポイントを決定する方法を開発してきました。

同じ数学が、レーダー システム、病気スクリーニング プログラム、Siri や Google Cloud Speech などの音声認識システムの記述にも使用されています。

しかし、そのようなシステムのエラー率が単一であると論じること自体が誤りなのでしょうか?それは、エラーが発生する方法が1つしかない、あるいは異なる種類のエラーがすべて同じように悪いと仮定していることになりますが、実際にはそうではないことがほとんどです。

例えば、センターリンクのシステムが債務者への手紙の送付においてミスを犯すケースは少なくとも2つあります。債務のない人に手紙を送る場合もあれば、債務のある人に手紙を送り忘れる場合もあります。

前者のエラーは偽陽性であり、システムがこの種のエラーを回避する割合は感度と呼ばれます。後者のエラーは偽陰性であり、関連する割合は特異度と呼ばれます。

航空機を検知するために電波を使用するレーダーシステムは、この多重誤差源の概念が初めて公式化されたシステムです。航空機の検知を見逃さないこと(偽陰性)は重要ですが、誤検知を回避することも同様に重要です。

不正確な報告に絶えず対処しなければならないことはオペレーターにとって疲労を招き、有効な検出結果を軽視する原因となる可能性があります。まるで現代版「狼少年」のようです。

スクリーニングエラー

複数のエラーメカニズムの重要性を示すもう 1 つの例は、乳がんのスクリーニング プログラムです。

がんを早期に発見することは良いことですが、誤診によるストレスからくる精神的ダメージを考慮すると、乳がんではない女性を正しく診断することも重要です。

これらのシステムは、分類と呼ばれる機械学習の一種を利用しています。分類システムは、利用可能なすべてのデータを用いて、特定のケースがどのクラスに該当するかを判断します。2クラスの問題(Centrelink:文字ありか文字なしか)では、エラーが発生する可能性が2通りあることは既に説明しました。

しかし、事態はさらに悪化します。3クラスの問題(良性、悪性、陰性を判断する癌検査)では、その数は6にまで増えます。システムが下す判断の数が多ければ多いほど、失敗する可能性も高くなります。

誰も完璧ではない

完璧なシステムを作ることは不可能です。データ入力ミス、自然変動、そして人為的ミスは、債務の有無、悪性か良性か、検知か誤報かといった境界線を曖昧にする要因となります。

以下のシーケンスは、数学者がセンターリンクシステムの簡略化されたモデルを用いて、どのように意思決定プロセスにアプローチするかを示しています。このモデルでは、申告所得と実所得を相互参照します。以下のシーケンスでは、債務者の実所得が申告所得よりも高いと仮定したシミュレーションデータを使用しています。

しかし、データに内在する不確実性と、決定ラインを選択する自由度を考えると、単純にエラー率を定義することは不可能であることがわかります。

私たちができることは、決定線を移動し、各位置の真陽性率と偽陽性率を記録する受信者動作特性 (ROC) と呼ばれる方法を使用してシステムのパフォーマンスを要約することです。

グラフ。サイモン・ウィリアムズ、フリンダース大学数学講師

このグラフは、債務者が正しく特定された人数が増えるにつれて、債務者と誤って特定された非債務者の人数も増えていることを示しています。グラフ作成:サイモン・ウィリアムズ

真陽性率は債務者のうち手紙を送った人の割合であり、偽陽性率は債務者宛ての手紙を誤って送った人の割合です。このグラフは、先ほど使用したのと同じシミュレーションデータに対して、各可能な決定ラインについて、真陽性と偽陽性のペアをすべてマークすることで生成されています。

このグラフから2つのことがわかります。債務者全員を特定したい場合(真陽性率100%)、債務のない人の90%も網にかけられます。この点は曲線のAで示されています。さらに、不要な文字を一切書きたくない場合(偽陽性率0%)、債務を返済すべき人(Bで示されています)はわずか38%しか見つけることができません。

いつものように、トレードオフは避けられず、賢明な方法はその中間にあります。だからこそ、システムには常に何らかのエラーが存在することを受け入れなければなりません。課題は、それらのエラーをどうバランスさせ、発生した場合はどう対処するかです。

なぜ今なのか?

センターリンクのシステムには、まだ一つの謎が残っています。データ照合アルゴリズムは数年前から手作業で使用されてきたにもかかわらず、今になってようやく注目を集めているのです。

答えは、その適用範囲の拡大にあります。自動システムは週に2万通の手紙を発送しており、これは手動システムの50倍に相当します。システムの適用対象が拡大したことで、その有効性は低下しています。

乳がんの検査で、がんを99%の精度で特定し、がんのない人を99%の確率で検出できると想像してみてください。これは素晴らしい検査のように聞こえますが、オーストラリア全土の検診など、集団検診に使用した場合、問題が生じる可能性があります。

オーストラリアにおける乳がんの有病率は10万人あたり61人です。つまり、この検査は、毎年国内で新たに発生する約1,400件の症例のうち、14件を除くすべてを正確に特定できることになります。

しかし、同じ理由で、23万人が癌と誤診され、完全に癌ではないと診断されるための高額で侵襲的な追加検査のために、不必要に再検査を受けることになるでしょう。こうした誤診がもたらすストレスや不安は言うまでもありません。これは当然のことながら、大惨事として非難されるべきでしょう。

実際のスクリーニング プログラムでは、適用範囲を 50 歳以上の女性に限定することでこの罠を回避しています。この女性は、スクリーニングが有用となるほど罹患率が高い、人口規模が小さいからです。

学ぶべき教訓

アラン・タッジ人間サービス大臣は、債務者でない人に手紙を送ることは間違いではないと述べた。

しかし、これまで見てきたように、こうしたエラーを軽視し、より多くの債務者を特定することだけに集中すると、この 2 番目のタイプのエラーの数は増大します。

また、データ照合システムを拡張し、ケース選択プロセスから人的要素を排除したことで、システムのパフォーマンスはさらに低下しました。

起こりうるエラーの数とそれらの相互作用の影響の両方を過小評価したため、センターリンクは大量のデータに見舞われた後、自力で立ち直ろうとしている状況だ。

会話

この記事はもともとThe Conversationに掲載されました。

Discover More