マイクロソフトは、開発者が機械学習を学習できるようにするための初心者向けプロジェクト群である AI ラボへの扉を開いた。
コンピュータービジョン、自然言語処理、ドローンを網羅する5つの異なる実験が用意されています。「各ラボでは、実験のプレイグラウンド、GitHub上のソースコード、開発者向けの鮮明なビデオ、そして根本的なビジネス上の問題と解決策に関する洞察にアクセスできます」と、マイクロソフトのタラ・シャンカール・ジャナ氏は火曜日に述べています。
一つ目はDrawingBotです。これは、学習に使用したデータに類似したコンテンツを作成することを学習する、人気のニューラルネットワークである生成的敵対的ネットワーク(GAN)について開発者に教えるためのツールです。DrawingBotは、Microsoft、リーハイ大学、ラトガース大学、デューク大学の研究者グループによって開発されたAttnGAN(attentional GANの略)を使用しています。
1日1個のAIで医者いらず…ニューラルネットソフトウェアが癌腫瘍の検出能力を向上
続きを読む
AttnGANは入力テキストに基づいて出力画像を生成します。DrawingBotは特に鳥類に焦点を当て、入力テキスト内の個々の単語を検査し、その説明を鳥類の画像の特定の領域にマッピングすることを学習します。
例えば、「赤い羽」や「オレンジ色のくちばし」といった特徴を拾い上げて画像を構築します。もしその特徴が学習時のものと大きく異なる場合、AttnGANはそれを正確に再現できません。つまり、鳥のリアルな画像を生成するのはかなり得意ですが、例えば頭が二つある鳥や、ドラゴンのように巨大な翼幅を持つ鳥などは生成できません。
JFK Files はそれほど派手ではありません。Microsoft の Cognitive Search と Azure Search を併用し、自然言語処理を適用してドキュメントから関連情報を検索します。
AIラボの例では、マイクロソフトは機密解除され公開されているJFK捜査に関するファイルを用いて、その仕組みを実証しています。古い文書(一部は手書き)から、名前や日付などの情報を引き出すことができます。
3番目はスタイル転送です。20万枚以上のラベル付き画像を含む人気のCOCOデータセットを使用します。写真内のオブジェクトはセグメント化され、スタイル転送を適用する際に引き継がれます。リアルな写真をモザイク風、あるいはシュールレアリスト風の画像に変換します。
モデルのトレーニングには Microsoft の Visual Studio Tools が使用され、開発者は Keras と TensorFlow で記述されたコードを操作し、Nvidia GPU を使用して Azure Cloud 上で実行できます。
4つ目はテキスト理解に関するものです。機械読解では、人気のSQUADデータセットを用いて、モデルが読み取る短い段落を提供し、質問に答えることができます。マイクロソフトは、自社の推論ネットワーク(ReasoNet)を用いてこれを実現しており、企業データへの活用や、特定のアプリケーションに関する顧客の質問に答えることでカスタマーサービスの向上に役立てられることを期待しています。これはFAQのようなものと言えるでしょう。
最後に、ドローンをシミュレートする環境「AirSim」があります。このゲームの目的は、ぬいぐるみが散らばるサッカー場をドローンで飛行させることです。ユーザーはPythonでプログラムを作成し、ドローンを飛ばしてすべての動物を識別する必要があります。
このコードは実際のドローンで実行できます。TensorFlowにエクスポートし、Dockerコンテナに送信してから、MicrosoftのAzure IoT Edgeプラットフォームにデプロイし、NVIDIA GPUを搭載したドローンで実行する必要があります。
これらすべてをここで遊ぶことができます。®