顔、顔、顔!Apple、TrueDepth、そして鼻を狙うiPhone Xゲーム

Table of Contents

顔、顔、顔!Apple、TrueDepth、そして鼻を狙うiPhone Xゲーム

2017年11月3日、ブラッド・ドワイヤーは、Appleが同日発売したiPhone Xとその奇妙な新機能TrueDepthカメラの謎を解き明かすべく、開発に着手した。エンジニアであり起業家でもある彼は、この新しい顔認識カメラを活用したアプリを開発したいと考えていた。「顔認識ゲーム」の第一世代となるアプリを開発するためだ。しかし、その実現方法は?

AppleはTrueDepthを「顔でロック解除」するFaceIDシステムの重要なハードウェアコンポーネントとして宣伝していたが、TrueDepthが具体的にどのように機能するのか、開発者がデバイスにどのようなアクセス権を持つのかについてはほとんど明らかにされていなかった。

AppleのApp Storeから取得したNoze Zoneアプリのスクリーンショット

AppleのApp Storeで公開されたNoze Zoneアプリのプレビュー

TrueDepthsの開発は10年前、イスラエルのPrimeSense社が開発した初の「深度カメラ」から始まりました。平面のX×Yピクセル画像にZ深度値を追加することで、各ピクセルにカメラからの距離を示すメタデータが付与されました。PrimeSenseデバイスは(人間の目には見えない赤外線で)点のパターンを投影し、その反射光をペアの赤外線カメラで読み取りました。このスキャンと、それに伴うソフトウェアによる後処理によって、リアルタイムの深度マッピングを可能にする高速な深度マップが生成されました。

深度マッピングはPrimeSense独自の技術ではありませんでしたが、これまでは解像度が非常に低い(ポラロイドのSX-70カメラが先駆けとなった超音波距離計のように)か、非常に高価なLIDARのようなソリューションを必要としていました。シンプルなシリコンとソフトウェアの組み合わせにより、PrimeSenseは競合他社に対して100対1の価格優位性を獲得しました。

このイノベーションは、Xbox 360をソニーのEyeToyの性能に匹敵、あるいは凌駕する可能性のある周辺機器を探していたマイクロソフトの目に留まりました。カメラベースのリアルタイム画像処理とジェスチャー認識の先駆的な例であるEyeToyは、家庭用ゲーム機ユーザーの間ではあまり受け入れられませんでしたが、将来、家庭用ゲーム機のコントローラーが消え、センサーとゲーム固有のジェスチャーに置き換わる未来を予感させるものでした。

PrimeSense は、マイクロソフトがレベルアップするためにまさに必要としていたもの、つまり、ゲーマーの身体 (または現実世界のほぼすべてのもの) をゲームに統合するのに最適な、安価で高品質、かつ適度に高解像度の深度カメラを持っていました。

Kinectとマイクロソフトの仲間だけ

マイクロソフトは、この技術のライセンスを取得し、2009年のE3で「Project Natal」の取り組みを発表した。「Kinect」が市場に出るまでにはさらに1年かかり、信じられないほどの誇大宣伝と驚くほどの売上不振で迎えられた。

この技術は確かに機能し、興味深いものでしたが、多くのコンソール周辺機器を悩ませている卵が先か鶏が先かという問題を抱えていました。ゲーム開発者は、周辺機器がどこでも入手できるものでなければ開発をしませんし、ゲーマーも、どこでもサポートされているものでなければ購入しません。このジレンマに突き落とされたKinectは、競争が激しく、価格にも非常に敏感なコンソール市場で成功するために必要な前進を遂げることはありませんでした。

Kinectは、MicrosoftがKinect用のWindowsドライバセットをリリースし、一般的なPCに深度カメラ機能を追加したことで、PC周辺機器として興味深い余生を送りました。常にサブマーケットの中のサブマーケットに過ぎなかったものの、PC版KinectはMicrosoft Researchが制作した派手なデモによって、その後のMicrosoftストーリーの中核を担うようになりました。複数のKinectで構成されたオフィス空間、広範囲に及ぶ深度センサーとジェスチャーコントロールを備えた作業環境などがその例です。素晴らしい動画もいくつか制作されましたが、売上には繋がりませんでした。

プライムセンスはなかった

さて、大きな売却が一つありました。それはPrimeSense自身の売却です。予想通り、Microsoftへの売却ではありませんでした。2013年末、PrimeSenseはMicrosoftの最大のライバルであるAppleに買収されました。

AppleはPrimeSenseに何を求めていたのか?クパチーノの巨像は何も明かさなかった。PrimeSenseは、従業員数が300人から600人を超えるまで増員されていたにもかかわらず、沈黙を守っていた。一体何に取り組んでいるのだろうか?噂は飛び交っていたが、それは主に、Appleが伝説的で幻想的なAR「スペクタクル」を作ろうとしているという、広く噂されていた取り組みに関するものだった。あらゆるARには、カメラによるものでも、GoogleのProject Tangoによるものでも、MicrosoftのHoloLensに搭載されているKinectに近いものでも、何らかの形の深度センサーが必要だ。PrimeSenseがAppleの拡張現実(AR)進出の鍵となることは明らかだった。

結局、誰もが予想していなかった形で証明された。顔認証は既にスマートフォンに搭載されていたが、失敗に終わっていた。サムスンがGalaxy S8の顔認証スキャナーを写真で騙せるように設計したという事実は、この問題を少々滑稽なものに見せかけた。これほどまでに個性的な顔が、そう簡単に盗まれるのだろうか?指紋のように、顔を個性的にする輪郭に注目すれば、そんなことはない。輪郭を計測するには深度カメラが必要だ。AppleがPrimeSenseを買収した際に、このような用途を想定していたわけではないかもしれないが、深度カメラと顔認証の組み合わせは理にかなっている。一方、深度マップのない顔認証は信頼性に欠ける。

昨年のiPhone発表会で、AppleはFace IDとそれを実現したTrueDepthカメラの素晴らしさを称賛しました。技術的な驚異として、TrueDepthは高い評価を得ており、Kinect 1とほぼ同等の機能を約1000分の1の体積と100分の1の電力予算に収めています。これはムーアの法則の2乗に相当し、意欲的な5000億ドル規模のテクノロジー企業が何を達成できるかを示しています。しかし、この偉業にはいくつかの代償が伴いました。iPhone Xの出荷台数は予想を下回りました。TrueDepthコンポーネントの大量生産が困難であることが判明したためです。そのため歩留まりは低下し、12月下旬までiPhone Xの供給不足に陥りました。

TrueDepth技術を採用したiPhone XのFace IDのAppleによるプロモーション

Appleは、Face IDはTrueDepthカメラによって実現されており、「3万個以上の目に見えないドットを投影して分析し、顔の正確な深度マップを作成する」と述べている。

そしてあなたの顔を見て…私は信者になりました

ブラッド・ドワイヤー氏が新しいiPhone Xを触ってみた時、Kinectのあらゆる要素を備えていることがすぐに分かった。しかし、Kinectと同じことができるのだろうか?AppleのAPIの一つを使えば、ドワイヤー氏は深度マップに直接アクセスできる。「ノイズが多いんです」とドワイヤー氏はThe Register紙に語った。「何かに向ければ深度マップデータを見ることはできますが、本当に雑然としていて、何も判別できません。でも、顔に向けると全く違うんです」

Appleの真骨頂とも言えるTrueDepthカメラは、顔認識という一つの機能に特化するように綿密に調整されています。「ハードウェアとソフトウェアの境界が曖昧です。しかし、TrueDepthカメラのデータを使って顔をマッピングしているだけではないことは明らかです。他にも様々な処理が行われているのです。」

ドワイヤー氏は、その原因について疑念を抱いている。「AppleがCoreMLと同時にARKitを導入したのは偶然ではないと思います。TrueDepthカメラを中心に両者は結びついていると思います。」

これは典型的な Apple のアプローチです。ハードウェアとソフトウェアを慎重に統合します。TrueDepth カメラでキャプチャされたノイズの多いセンサー データは CoreML を通過し、顔の輪郭が検出されてノイズが除去され、そのデータがクリーンでスムーズになり、プログラマーが処理できるようになります。

週末の学習を終えた後、ドワイヤーはスタッフとTrueDepthアプリのアイデアをブレインストーミングした。「1時間で少なくとも50個のアイデアが浮かびました。」

1週間後、ドワイヤーは最初のアプリ「Noze Zone」をAppleに申請し、承認を求めた。Noze Zoneは、顔をコントローラーに変えて、睨みつけて吹き飛ばすだけのシンプルなビデオゲームだ。これは、ドワイヤーの会社がこの最新インターフェースのイノベーターであることを確固たるものにするための、いわば足掛かりとなるものだった。しかし、そこから事態は複雑化した。「AppleがNozeZoneを承認するまでに約1ヶ月かかりました。ワシントン・ポストの記事のせいです。」

11月30日、ベゾス氏が所有するこの大手メディアは、TrueDepth + ARKit + CoreMLで収集された顔データがどのように利用されるのか、鋭い疑問を投げかける記事を掲載した。共有されるのか?アップロードされるのか?アプリがユーザーの顔をこっそり見て感情を読み取ることができるのか?Facebookのような企業は、自社アルゴリズムのための材料が増えるため、間違いなくこれに強い関心を示すだろう。この記事を受けて、顧客のプライバシー保護を重視した製品開発を公言しているAppleは、TrueDepthアプリが遵守すべきガイドラインを策定した。遵守しなければ、利用は拒否されるだろう。

「Appleは私たちに、顔データで何をするのか、どこに送るのか、といったことを尋ねてきました。私たちがそれらすべてを秘密にしていることに満足した上で、Noze Zoneを承認してくれました。アプリを提出してから1ヶ月後のことでした。」最先端技術を扱う小規模な開発者は、巨大企業が追いつくまで待たなければならないこともあります。

あらゆる兆候が、次世代iPadにTrueDepthカメラが搭載されることを示唆しています。これは、この技術がAppleのiOS製品ライン全体に広く普及する兆しです。これらのカメラがユーザー向けのままになるかどうかは、より大きな問題です。「今のところ」とドワイヤー氏は考えながら言います。「ARKitは壁や床のような平らな面を認識できます。TrueDepthカメラを外側に向ければ、ARKitは空間内のあらゆるものを認識できるようになります。」

そうなる可能性はありますが、顔認識にはARKitとCoreMLの密接な連携が不可欠であることを考えると、あらゆる形状を識別できるハードウェア/ソフトウェアシステムを実現するのは容易ではありません。顔認識は、段階的なアプローチの第一歩であり、それが急速に身体へと拡大していくでしょう。顔認識から腕、胴体、脚の認識へと広がっていくでしょう。TrueDepthはまさにその点で大きな進歩を遂げており、初代Kinectと同等の表現力を実現しています。

無生物はどうだろうか?Appleはこのノイズの多いセンサーに、ディナープレートや木、自動車などを認識させる必要があるのだろうか?TrueDepthはここで、Appleの拡張現実戦略の最先端としてその実力を発揮し始めている。拡張現実が直面する最大の技術的課題の一つである「世界認識」を、ハードウェアとソフトウェアの技術基盤によって少しずつ解決し始めているのだ。

ドワイヤー氏は興奮気味に語る。「TrueDepthを使って、今できることに取り組んでいます。Appleのアニ文字の高品質版のような、フォトリアリスティックなマッピングアプリです。でも、ARスペクタクルの完成を楽しみにしています。」®

Discover More