40ドルでImageNetを18分でトレーニング、ウォーリーをさがせ!などをプレイできるロボット

Table of Contents

40ドルでImageNetを18分でトレーニング、ウォーリーをさがせ!などをプレイできるロボット

まとめこんにちは、週末のAIニュースをいくつかご紹介します。モデルを超高速に学習させるために、大量のGPUを購入するのに必ずしも多額の資金が必要なわけではありません。クラウドプラットフォームを使えば、かなり安価に学習できます。また、「ウォーリーをさがせ!」(イギリスではウォーリー)をプレイできるロボットや、ジョークが面白いかどうかを判断しようとするMicrosoftのコンピューターも登場しています。

ImageNet を超高速でトレーニングするための公開コード:エンジニアのグループは、パブリック クラウド プラットフォームでわずか 40 ドルでレンタルしたハードウェアを使用して、ImageNet を 93 パーセントの精度でトレーニングすることに成功しました。

これは、画像分類で最も人気のあるデータセットの一つであるImageNetにおける畳み込みニューラルネットワークの学習における、史上最速記録ではありません。これまでで最速は4分で、テンセントと香港バプティスト大学の研究者が記録しました。

学習プロセスを高速化するには、バッチサイズを増大させ、膨大な数のGPUを投入する必要があります。ImageNetを4分で処理するには、1024個のNvidia P40 GPUが必要でした。これは、潤沢な資金を持つ巨大テクノロジー企業でない限り、到底手の届かない金額です。

しかし、Fast.aiの共同設立者であるジェレミー・ハワード氏、DawnBenchコンペティションに参加したエンジニアのアンドリュー・ショー氏、民間防衛企業Defense Innovation Unit Experimentalの研究員ヤロスラフ・ブラトフ氏を含むエンジニアチームが、この見通しをずっと手頃なものにした。

彼らは、それぞれ 8 基の NVIDIA V100 GPU を搭載した 16 個のパブリック AWS クラウド インスタンスをレンタルし、最初は小さな画像でトレーニングしてから大きな画像を導入するなど、いくつかの巧妙なソフトウェア トリックを採用しました。

「そうすることで、モデルが初期段階で非常に不正確であっても、すぐに大量の画像を見て急速に進歩することができ、後のトレーニングではより大きな画像を見てより細かい区別を学習することができます」とハワード氏はブログ投稿で説明した。

「DIUとfast.aiは、このプロジェクトで開発されたベストプラクティスを使用して、誰でもAWS上で独自の分散モデルを簡単にトレーニングおよび監視できるようにするソフトウェアをリリースする予定です」と彼は付け加えた。

詳細については、こちらをご覧ください。

Google Cloud 上の Nvidia の Tesla P4:クラウド プラットフォームの話題に戻りますが、Google Cloud は自社のサービス上で Nvidia の P4 GPU をホストするようになったと発表しました。

P100 や V100 ほど高度ではないため、小型モデルをトレーニングまたは実行している人や、長時間待っても構わない人にとっては、より安価なオプションとなります。

グーグルクラウド

Google Cloud 上のさまざまな GPU の価格比較。

現在、米国中部、米国東部、ヨーロッパ西部を含むいくつかの選択されたゾーンで利用可能です。

詳細については、こちらをご覧ください。

AIは笑い声から面白いジョークを判別できるのか?マイクロソフトは、ニューヨークの国立コメディセンターに、Face APIを使ってジョークに笑ったかどうかを判別する展示を設置した。

観客はスクリーンの前に立ち、「笑いバトル」に参加します。マシンには、人間のコメディアンが書いた様々なジョークがプリインストールされています。AIは相変わらずユーモアが下手です。プレイヤーは順番にジョークを選び、6ラウンドをプレイして相手を最も笑わせたプレイヤーが勝利します。

以下のビデオデモをご覧ください。

YouTubeビデオ

MicrosoftのFace APIは、人物の顔をスキャンすることで、得点の有無を判断するために使用されています。このシステムは、10万以上の顔画像で感情分析を訓練した畳み込みニューラルネットワークを使用しています。画像には、喜び、悲しみ、怒り、軽蔑、嫌悪、恐怖、無表情、驚きといった感情のラベルが付けられています。

「文化を超えて、人々は同じように笑い、同じように怒り、同じように嫌悪感を示します」と認知サービス チームの主席プログラム マネージャー、コルネリア カラプセア氏は語ります。

「誰かが笑っているか、しかめっ面をしているかを検知し、それぞれの感情にスコアを付与します」と彼女は説明した。「顔を見て『幸せ』と言うのではなく、『ああ、幸せは60%くらいかな』と言うのです。もしその人がモナリザのような笑顔を浮かべていたら、幸せが60%、悲しいが40%になるかもしれません。」

ロボットが「ウォーリーをさがせ!」をプレイ可能: 開発者は、Google の AutoML 画像分類サービスとロボット アームを組み合わせ、人気の絵本ゲーム「ウォーリーをさがせ!」でウォーリーを指差せるようにしました。

複雑な状況に巻き込まれた人々でいっぱいのイラストの中に、ワルドはいつも隠れています。いつも特徴的な赤と白のストライプのボンボン付き帽子、ジャンパー、そしてブルージーンズを着ていますが、見つけるのは容易ではありません。

このゲームの目的は、ワルドを指差してできるだけ早く見つけることです。今ならロボットアームもプレイでき、最短4.45秒でワルドを見つけることができます。このロボットアームは、ワルドの顔で学習させたGoogleのAutoML Visionサービスに接続されています。モデルが写真の中でワルドと95%以上の一致を検出すると、ゴム製の手が付いたロボットアームがワルドの元へ移動します。

アームの実行は、Python 上で実行される Raspberry Pi によって制御されます。

実際に動作している様子は以下でご覧いただけます...®

YouTubeビデオ

Discover More