Google がフォーム解析用の Document AI をプレビュー: AWS と Azure に追いつくだけか?

Table of Contents

Google がフォーム解析用の Document AI をプレビュー: AWS と Azure に追いつくだけか?

Google Cloud Platform は、パーサーの選択とカスタム モデルの使用オプションを備え、フォーム内のキーと値のペアなどのドキュメントからデータを自動抽出する新しいサービスである Document AI をプレビューしています。

Document AI の背景にある考え方は、企業が扱うドキュメントは何千もあり、その多くは構造化データまたは半構造化データを含みますが、その形式はさまざまであり、そこから構造化データを抽出して処理および分析することにはメリットがあるというものです。

これには、データを標準形式に変換することが含まれており、「姓」「名字」「ファミリーネーム」といった同義語を同じ意味として扱うことができます。「様々な形式の非構造化文書を取り込み、明確に構造化されたデータに変換します」というのが同社の売り文句です。

Document AIで請求書を解析中:「Package」という請求書の明細はどうなったのでしょうか?このような複雑なレイアウトでは、このサービスはあまり役に立ちません。

Document AIで請求書を解析中:「Package」という請求書の項目はどうなったのでしょうか?このような複雑なレイアウトでは、このサービスはあまり役に立ちません。

一部はすでにプレビューされていますが、昨日発表された新しい機能は、開発者が様々なパーサー(「プロセッサ」)を用いてドキュメントを処理できるようにする統合APIです。このAPIはRESTまたはgRPC形式で、Java、Node.js、またはPythonのクライアントライブラリでラップされています。

利用可能なプロセッサには、OCR(光学文字認識)、汎用フォーム、汎用表、そして「機械学習を用いて論理的な境界で文書を分割する」文書分割機能(スキャンした文書群を論理的な段落やページに分割するなど)が含まれます。また、請求書、領収書、融資書類、米国統一住宅ローン申請書、およびいくつかの米国連邦税申告書用の特別なパーサーも用意されています。

開発者やデータサイエンティストは、独自のカスタムAuto ML自然言語モデルを構築して、ドキュメントを解析・分析することもできます。このアプローチは最も強力で、エンティティの識別やドキュメント内の態度評価などが可能になります。

AutoML自然言語モデル自体は目新しいものではありませんが、Document APIへの統合は現在ベータ版です。ただし、テーブル解析とAutoMLはどちらもドキュメント上で立ち入り禁止のマークが付いており、クローズドベータ版であることを示しています。また、ドキュメント分割機能など、一部の機能は「アクセス制限」となっており、Googleによる事前承認が必要です。

それはどれくらいうまく機能しますか?

文書のデザインは大きな違いを生みます。レイアウトがシンプルで分かりやすい場合は、正確な解析が期待できますが、複雑なレイアウトの場合は、パーサーが混乱する可能性があります。古い請求書に請求書パーサーを試したところ、まずまずの結果が得られましたが、何らかの理由でパーサーは請求書の項目の1つを無視し、さらに請求書に記載されているマーケティング関連の項目を構造化データとして抽出し、「友人への通話料金が安くなる」というキーを抽出しました。

このサービスは、よりシンプルな請求書ではより優れたパフォーマンスを発揮し、VAT 登録番号という行を正常に読み取り、それを supplier_tax_id として解析しました。まさに有用なインテリジェントな解析です。

Document AIは膨大な手作業を削減できる可能性がありますが、人間によるチェックも必要になりそうです。特に、汚れやシミのある可能性のあるスキャン文書の場合はなおさらです。

Google は機密性に関する懸念に敏感であり、同社のサービスで処理された後、「保存された文書は通常、処理の完了直後に削除される」と述べています。

同社はさらに、「Googleは、サービスの向上と不正使用の防止のため、Document AI APIリクエストに関するメタデータの一部を一時的に記録します」と付け加えた。Googleによると、このデータはDocument AI機械学習モデルのトレーニングや改善には使用されないという。

価格はさまざまですが、たとえばフォーム パーサーは 1,000 ページあたり 65 ドル、ドキュメント OCR プロセッサは 1,000 ページあたり 1.50 ポンドかかります。

最後に、AWS には Textract という同様のサービスがあり、Microsoft Azure には Form Recognizer という「AI を活用したドキュメント抽出サービス」があることに注目してください。つまり、Google Cloud の最新の動きには追いつく要素があるようです。®

Discover More