もし統計学が人間だったら、350年の人生を通してずっと深いセラピーを受けてきたはずだ。セッションはこんな感じだろう。
統計:「みんなが私を嫌っている。」
一時停止。
セラピスト: 「きっと誰もがそうではないと思いますが…」
統計:「そして彼らは私を誤解しています。」
一時停止。
セラピスト:「申し訳ありませんが、あなたの言っている意味がよく分かりませんでした...」
問題は、統計が国民の大多数によって誤解されており、ほとんどの人が理解できないものを嫌っていることです。よく知られた表現を考えてみてください。「嘘、とんでもない嘘、そして統計」や「政府は統計を酔っぱらいが街灯柱を使うように利用している。照明よりも支援のために利用しているのだ」
しかし、統計はもっともっと評価されるべきです。なぜなら、何世紀にもわたって統計は、情報に基づいた、証拠に基づいた意思決定を可能にしてきただけでなく、機械学習(ML)と人工知能(AI)における現在の革命の基盤となっているからです。統計がなければ、自動運転車もSiriもGoogleも存在し得ません。
この分野は比較的最近発展した。1654年、ブレーズ・パスカルとピエール・ド・フェルマーという二人の数学者が、それぞれ三角形の定理で、そして最終定理でそれぞれ有名だったが、貴族で作家のアントワーヌ・ゴンボーが提起した賭博問題に協力した。
彼らは、実際に数えることなく、ある事象の起こり得るすべての結果を列挙し、分類する方法を考案しました。例えば、「ポーカーのサイコロを2つ振って6が2つ出る確率は、6と5が出る確率と同じですか?」という問題を考えてみましょう。
36 通りの組み合わせをすべてリストアップして、必要なものを数える必要はありません。代わりに、6 が 2 つ出る確率は 1/6 に 1/6 を掛けて 1/36、つまり 0.0277 または 2.77 パーセントとなり、6 と 5 が出る確率は 1/6 の 2 倍に 1/6 を掛けて 2/36、つまり 0.0555 または 5.55 パーセントとなると言えばよいでしょう。
確率を計算するというこの概念は、最初の水に革命をもたらしました。約1世紀後、この研究は、影響力のある学者ピエール=シモン・ラプラスと数学者カール・フリードリヒ・ガウスによって拡張され、科学に応用されました。それ以来、人々は自分の主張を裏付けるために、暴力ではなく統計的証拠を用いることがますます一般的になりました。
ちなみに、グラフ理論全体、ひいてはグラフデータベースは、一見些細な問題(ケーニヒスベルクの七つの橋)から始まったとここで書きましたが、まさに同じパターンがここにも見られます。一見無害な疑問から、頭を悩ませるほど有用な数学の全く新しい分野が始まったのです。
残念なことに、統計学はしばしば非常に難解で、極度のオタクにしか理解できない学問だと思われがちです。こうした認識が、こうしたブラックアートを実践する人々によって助長されているかどうかは誰にも分かりません(94.3%の人がそう考えています)。しかし、真実は、最も有用な統計手法の多くは非常にシンプルであるということです。
一例として、商業の世界でよく見られる問題を考えてみましょう。顧客の男女比が1:1であるとします。新製品の販売を開始し、初日の終わりまでに、女性2,262人、男性2,128人が購入しました。明らかに女性の購入者が多かったのですが、134人という差は、本当に女性の購入傾向が高いことを意味するのでしょうか?言い換えれば、明日、より多くの女性が製品を購入すると確信を持って期待できるのでしょうか?私たちが知る必要があるのは、この134人(3%)という差が偶然によるものである確率です。
ここで必要な統計検定はカイ二乗検定と呼ばれ、非常にシンプルなのでExcelにCHISQ.TEST()という関数として組み込まれています。この関数の答えは0.043(4.3%)で、これは観察される差が偶然によるものである確率です。これは非常に低い値なので、女性の方が男性よりも実際に購入する可能性が非常に高いと言えます。
さて、統計を使わない場合(ほとんどの人は、このような非常に単純な計算でさえも使わないでしょう)、数字を見て推測するしかありません。統計を使えば、この差が偶然に発生する確率はわずか4.3%であることが分かるので、証拠に基づいた判断を下すことができます。それでも間違える可能性はありますが、間違える頻度が減るだけでなく、間違える確率も分かります。
ここから運転仲間へ
では、男女比から自動運転車に至るまで、どのように考えれば良いのでしょうか?確率という基本的な考え方を前提に、知的な人間に350年かけてより複雑な応用を解く時間を与えれば良いのです。確かに方程式は複雑になりますが、数学者ではない私としては、統計学者が何をしているのかを理解していると単純に受け入れ、方程式の意味を理解せずにツールを使うことができます。
自動運転車は知能を持っていませんが、判断を下さなければなりません。センサーは常に前方の道路をスキャンしています。センサーの到達範囲のすぐ端、縁石の上に静止した塊が現れます。その高さは約2.8メートルです。この高さの人間(帽子をかぶっていても)が現れる確率は非常に低いです。システムは今のところ、これを人間ではないと判断します。車が走行するにつれて、高さの推定値が下がったり、塊が動いたりした場合、その判断は再評価されます。しかし、重要なのは、車は決して確実に「知る」ことはできないということです。車にできるのは、確率を推定することだけです。
Google Cloud Vision API もその一例です。このAPIは機械学習を用いて画像の内容に関する情報を提供します。ご自身の画像でテストするには、こちらをクリックしてください。
Googleは私の写真が車であることに99%の確信を持っており、それがヴィンテージであることに88%の確信を持っていました。実際は車ではありませんが、ヴィンテージに見えるように作られています。
MLとAIは統計に深く依存しています。ほぼすべてのMLはデータマイニングに基づいており、従来のデータマイニングアルゴリズム(クラスタリング、決定木など)はすべて統計的推論に大きく依存しています。
では、統計は簡単で(実際そうなのです)、しかも簡単に使えるのに、なぜ乱用されてしまうのでしょうか?これにはいくつかの理由があると思いますが、主な理由は、人々が統計を故意に乱用することが多いことです(政治家だけではありませんが、彼らはまさにその好例です)。一般的に、彼らは計算を間違えることはありません。それはあまりにも明白なことです。しかし、よくあるのは以下の点です。
- 利用可能なデータが彼らの信念体系を裏付けるような特定の方法で質問する
- 一部のデータを無視する
- 原因と結果を誤用/誤解する
誤用の例としては、英語にも伝わった「eight out of ten cats(10匹中8匹の猫)」というフレーズがあります。これは、ジミー・カーが司会を務めるチャンネル4の長寿クイズ番組の名前でもあります。これは1980年代に遡り、ウィスカスのキャットフードが「飼い主の10人中8人が、自分の猫がこれを気に入っていると答えました」という広告スローガンで宣伝されました。
曖昧な表現なので、反論の余地がないと思ったかもしれません。しかし、広告基準局への苦情を受けて、この表現は次のように書き換えられました。「好みを表明した飼い主の10人中8人が、自分の猫はそれを好んでいると回答しました。」メーカーが最初の簡潔なバージョンを好んだ理由は理解できますが、これは単に統計的証拠の誤った表現でした。
そこで、よく知られた格言の一つを現代風にアレンジする必要があります。より正確には、「真実は存在する。絶対的な真実と、優れた統計が存在する。」と言うべきでしょう。残念ながら、政治家と酔っぱらいに関する格言は、当分の間、現代風に解釈され続けるでしょう。®