Google は Cloud Vision API のベータ版をリリースしました。これにより、開発者は機械学習モデルに画像を送信して、コンテンツを自動分析できるようになります。
Google によると、12 月初旬の限定プレビュー リリースでは数千の企業が API を使用し、画像注釈のリクエストが数百万件生成されたとのことだが、その後 Chocolate Factory は一般公開された。
このAPIは、日常的な物体の検出に役立ちます。Googleは「スポーツカー」「寿司」「ワシ」といった用語を提案するほか、画像内のテキストの読み取りや製品ロゴの識別も行います。
ベータ期間中(現在から3月1日まで)は、ユーザーは月間2,000万枚の画像を使用できます。開発者がリアルタイムのミッションクリティカルなアプリケーションにCloud Vision APIを導入できる可能性は低いですが、その機能を試す機会としては十分でしょう。
GoogleはAPIの価格も発表しており、2月末から適用されます。Googleによると、ユーザーは「画像1,000枚あたりわずか2ドルでラベル検出を適用できる」ほか、「画像1,000枚あたり0.60ドルで光学式文字認識(OCR)を適用できる」とのことです。
それは何をするのですか?
画像の内容を自動的に分析することは、人間にとっては明らかに簡単な作業ですが、コンピュータにとっては容易ではありません。これはGoogleにとって重要な関心事であり、Googleの画像検索機能はテキスト検索機能に比べて大きく遅れをとっています。しかし、Googleは効果的なセーフサーチフィルターの開発に多くの時間を費やしており、このフィルターはAPIの機能としても利用可能です。
提供されているドキュメントでは、課金と認証の要件が満たされている限り、Cloud Developer Console 内から Vision API を有効にできることが説明されています。
Vision API の機能には現在、顔分析 (アプリケーションがロゴを見た人の感情を分析できるようにする) やランドマーク検出のほか、ロゴ、一般的なテキスト、NSFW コンテンツ (Google が「ラベル」と表現しているもの) を認識する機能が含まれています。
ラベル検出機能は、Googleフォトユーザーにとって馴染み深い機能です。これは基本的にGoogle Cloud Vision APIの主要なメタデータ機能であり、画像内のコンテンツを「交通手段から動物まで」分類するためのカテゴリ分けを可能にします。
Google は、Cloud Vision API について「アプリケーションが世界中の情報を視覚、聴覚、そしてより有用なものにするための第一歩です」と述べています。®