ビジネスインテリジェンス(BI)システムは、生データを有用な情報に変換するように設計されています。なのに、なぜその役割を十分に果たせないのでしょうか?多くのBIシステムは、分析の世界が提供する膨大な機能を十分に活用できていないのはなぜでしょうか?
最も基本的なレベルでさえ、例えば単純な統計を扱うことさえ、致命的な失敗を招きます。お気に入りのBIビジュアライゼーションツールを使って、ウェストモートンの男性と女性への過去数か月間のオレンジの売上を調べたとします。すると、オレンジの販売数は男性の方が女性よりも多いことがわかりますが、その差はそれほど大きくありません。
男性 10,234
女性 10,230
おそらく直感的に、男性と女性への売上は実質的に同じで、わずかな差は現実世界では数字が多少変動するという事実によるものだと判断するでしょう。(現実世界では数字が多少変動することを専門用語で「標本誤差」といいます。)
一方、次のような場合:
男性 10,234
女性4
ここに「本当の」違いがあり、たとえば女性に特化した広告を出す必要があると結論付けるかもしれません。
上記の 2 つのケースは簡単ですが、次のような状況になったとします。
男性 10,234
女性 10,070
それは「本当の」違いなのでしょうか、それとも男性と女性への売上は本質的に同じで、その違いは単に古くからの友人であるサンプリング誤差によるものなのでしょうか?
一般的な BI ツールは単に数字を表示し、グラフを描画しますが、この差が実際にどの程度重要であるかを判断するのはユーザー次第です。
これは重要なことですか?
本来行うべきことは、カイ二乗検定を実行することです。これにより、非常にシンプルかつ非常に有用な結果が得られます。それは、目に見える差異が標本誤差によるものである確率です。上記の数値を用いると、その確率は0.25です。つまり、女性にオレンジをもっと買ってもらうことに焦点を当てた広告戦略を立てた場合、25%の確率で間違っているということになります。一般的なルールとして、ビジネス上の意思決定の4分の1が間違っていることを望みますか?
確かに、ほとんどの合理的な人は推測以上のものに基づいて決定を下したいと考えています。これには「情報に基づく意思決定」という名前さえあります。
では、なぜBIツールはこうした情報を提供しないのでしょうか?以前、私はBIツールを開発しているある企業にまさにこの質問をしたところ、平均的なビジネスユーザーは統計を理解していないという返答がありました。しかし、驚くべきことに、その答えは多くの点で本質を見失っていました。
「平均的な」ユーザーは統計を理解しないかもしれませんが、バックグラウンドで適切な統計を実行し、そこから得られる貴重な情報をユーザーに提示する責任は BI パッケージの設計者に課せられます。
したがって、統計は次のようなデータとして表示されるべきではありません。
カイ二乗値=1.324665
自由度=1
P=0.249757
統計に固有の情報を提示する必要があります。
これらの数字の違いが単なる偶然によるものである可能性は 25 パーセントあります。
最後に、この会社の代表者が主張するように「ほとんどの」人が統計情報を理解していないからといって、誰も理解していないわけではありません。統計情報は、見たい人が見ることができるように公開できます。これは「オプション」と呼ばれ、メニューシステムに追加できます。
もちろん、カイ二乗検定だけではありません。生データに自動的かつ有意義に適用できる統計は他にもたくさんあります。しかし、たとえBIツールがそれらをすべてインテリジェントに適用できたとしても、それはほんの始まりに過ぎません。こうした基本的な統計検定は一般的に100年以上も前から存在し、私たちはそれ以来ずっと進歩を続けています。
分析をBIツールに賢く組み込む方法について早送りしてみましょう。ツールはデータを参照し、統計処理を行う前に、データに何らかのコンテキストを適用できる必要があります。例えば、「Customer」というテーブルがあり、「PostCode」という列に「DD1 4HN」や「SW1A 4WW」といった値が含まれているとします。
ツールはこれを英国の位置情報として認識する必要があります。また、個々の郵便番号はあまりにも詳細すぎるため、実際の郵便番号に分析を適用するのは時間の無駄になることが多いことを認識するようにプログラムする必要があります。数百万人の顧客を抱えている場合を除き、大多数の顧客は固有の郵便番号を持つでしょう。しかし、郵便番号は階層の最下層に位置しており、システムは各コードに関連付けられた市区町村、郡、国を検索し、これらのより広範なグループに関連するパターンを見つけることができる必要があります。
次にDateOfBirthを見てみましょう。個々の日付のパターンを探す必要はありません(上記の郵便番号を参照)。システムは対象となる人々の年齢を計算し、分布をプロットします。
データのスライス
これらをユーザーに表示し、次のことを提案できます。
- これを15~30、35~60、65~70の3つのグループに自動的に分類します
- ユーザーがドメイン知識を適用し、他の方法でデータをバケット化できるようにする
生の生年月日をそのまま使用するのは避けてください。
さて、いよいよ過激な話に移りましょう(実際にはそうではありませんが、これらはまだ非常に基本的な分析手法です)。ほとんどのデータは多次元です。この素晴らしい響きの言葉は、数値的な尺度(オレンジの数、注文金額など)があり、それらが複数の次元(性別、場所、年齢など)の影響を受けていることを意味しています。
ソフトウェアはデータを分析し、詳細を説明せずに複数の分析を実行し、どの次元が最も大きな影響を与えるかを判断します。PCA(主成分分析)やSVD(特異値分解)といった手法が思い浮かびます。その後、ソフトウェアは最も有用な分析の可能性を提案します。
さらに、外れ値や欠損データを自動的に検出し、バックグラウンドでクラスタリングを実行することもできます。可能性はほぼ無限です。
私が BI ツールのメーカーに対して厳しいことを言っていると思うなら、ここでも同様に悪いことが起こっているのです。
Microsoft の Excel は、標準の BI ツールよりも広く使用されていると言えるでしょう。長年多くのユーザーにとってデスクトップ生産性スイートであった Office に含まれているため、ほとんどの Microsoft ユーザーの選択肢となっています。
ただし、上記のオレンジ色の数字をグラフ化すると、Excel はデフォルトで以下のようにデータを表示し、Y 軸のスケールは差異を強調するように設定されます。
Excelは役に立たない道を行く
これはBIへのインテリジェンスの適用ではありません。しかし、多くのベンダーがこの点で対立しているということを示す証拠です。®