コメント予測分析の針が5000万件もの干し草の山に埋もれている場合、単純な質問にも答えるのが難しくなります。しかし、いわゆる「チューニングされた機械学習」技術を用いることで、データサイエンティストの作業を自動化し、かつては1週間以上かかっていた答えを数時間で得ることができます。
質問は次のようなものです:
- ECサイトでユーザーが諦めて何も買わなくなるのはどんな時でしょうか?また、その数を減らすにはどうすればよいのでしょうか?
- 電子商取引ウェブサイトの会員が会員資格をキャンセルする可能性はどのような場合ですか?
- 機器の故障に対する対応時間はどのくらいですか?また、それをどのように短縮できますか?
- 東京規模のエリアではいつ電力需要が増減し、より実際の需要に見合った発電が可能になるのでしょうか?
現在、eBay や Amazon などのサイトや発電消費記録から得られる数千万件の記録が利用可能であり、それらをビッグデータ リポジトリに保存して分析することで、このような質問に対する答えを探すことができます。
機械学習は、膨大な量のデータを調べて意味のある情報を抽出しようとする多くの分析手法の 1 つです。
機械学習の難しさ
データセットから学習し、同じデータタイプの新しいレコードセットで何が起こるかを予測できるアルゴリズムの構築を目指しています。光学式文字認識やスパムフィルタリングなどのアプリケーションが存在します。
機械学習アルゴリズムには、ランダムフォレスト、ロジスティック回帰、サポートベクターマシン (SVM) などの教師あり学習アルゴリズムや、教師なし学習アルゴリズム*など、数多くあります。
富士通は次のように述べています。「機械学習アルゴリズムには様々な手法があり、それぞれ目的が異なり、予測精度や実行時間も異なります。最高の精度を生み出すアルゴリズムは分析対象のデータに依存し、最も正確な予測を得るには、アルゴリズムの設定と実行時の条件を微調整することも重要です。」
データ サイエンティストは、そのスキルを活用してアルゴリズムと構成の組み合わせを選択し、開始データから最も正確な予測モデルを取得します。
もちろん、データサイエンティストのスキルレベルは個々に異なります。分析に12時間以上かかる場合、通常はデータのサブセットに適用され、結果の精度は低下します。
日本の富士通研究所の研究者たちは、この状況を改善したいと考え、いわば機械学習を活用して機械学習を改善するというアイデアを思いつきました。
機械学習の改善
これは、Spark を使用してデータのサブセットで機械学習と条件の組み合わせを実行し、データの完全なセットで実行する最も正確な機械学習/条件の組み合わせを予測します。
富士通研究所は、様々なサイズのデータセットと属性数を用いて、標準的な機械学習アルゴリズムの実行時間を測定しました。このデータに基づいて、どのアルゴリズムと属性の組み合わせが最も正確な予測を生成したかを示す実行時間推定モデルを構築し、これを用いて新たな組み合わせの予測精度を推定しました。
このモデルを微調整するために、実際のオンザフライ実行時測定が使用されます。
技術の概略図
このベースラインを取得し、新しいデータセットに直面して、富士通は次のように述べています。
このテクノロジーは、すべての候補の組み合わせの中から時間効率の良い候補を選択し、それらを効率的かつ並列に反復処理します。
この技術は、実行時間と予測精度の推定値を組み合わせて、実行時間を短縮しながら予測精度を大幅に向上させることが期待できるアルゴリズムと構成の候補の組み合わせを選択します。
選択された各組み合わせは分散方式で実行されます。
この手法は、最も効果的な組み合わせに自動的に焦点を当てるため、アナリストのノウハウに依存しません。
機械学習アルゴリズムを自動調整する制御技術
結果
富士通研究所の研究者たちは、12コアサーバー8台と5000万件のレコードデータセットを用いてテストを実施しました。「既存の技術では、96%の精度を持つ予測モデルを開発するのに約1週間かかる」と富士通研究所は主張しています。
予備的な機械学習アルゴリズムの選択実行では、「その技術はわずか2時間強でそのレベルに到達しました」。1週間から2時間に短縮されたのは、驚異的なスピードアップです。
同社は現在、実証実験を行っており、2015年度末までに製品化を目指している。「首都圏程度の広さの地域にある各家庭の電力需要を予測するサービスの提供に活用できる可能性がある」としている。悪くない結果だ。®
*ランダム フォレストに関する優れた Wikipedia の記事があり、機械学習の分野を探索するための出発点として使用できます。