SharePoint Syntex: マイクロソフトがドキュメントを自動分類するAIを発表

Table of Contents

SharePoint Syntex: マイクロソフトがドキュメントを自動分類するAIを発表

Ignite Microsoft の SharePoint Syntex は、ドキュメントからメタデータを自動的に抽出し、情報の検索と分類を容易にすることを約束する SharePoint Online の新機能です。

SharePoint Syntex は現在プレビュー段階ですが、10 月 1 日に一般提供が予定されており、2019 Ignite イベントで発表された Project Cortex と呼ばれる幅広いテクノロジに基づく最初の製品です。

中心となるアイデアは、AI を使用して Microsoft のクラウドに保存されているコンテンツを解析し、ドキュメント内の単語、画像、リンクだけでなく、誰がコンテンツに関与しているか、そのユーザーがどの部署に所属しているかなど、Microsoft Graph 内の他のシグナルも活用することです。

Syntexは、コンテンツセンターに表示されるAIを活用した分析を通じてドキュメントを分類した後、承認などのドキュメントワークフローを推進できます。

Syntexは、コンテンツセンターに表示されるAIを活用した分析を通じてドキュメントを分類した後、承認などのドキュメントワークフローを推進できます。

マイクロソフトは、Project Cortexがプレビュー顧客にどのように利用されているかを確認した後、この技術をベースにしたプロジェクトを1つではなく複数立ち上げることを決定したと述べています。SharePoint Syntexは、SharePoint Online向けのプレミアムアドオンとして初めて、AIを活用したコンテンツの理解と自動化(例えば、ドキュメントを適切な担当者にルーティングして承認を得るなど)に重点を置いています。

SharePointコンテンツにAIが適用されるのを見るのは今回が初めてではありません。Microsoftは2014年にOffice Delveを導入しました。これもOffice Graphをベースとしており、ユーザーにとって最も関連性の高いドキュメントを自動的に表示するという理論に基づいています。Delveはあまり大きな影響を与えていませんが、Syntexは違うのでしょうか?

まだ初期段階ですが、SyntexはDelveよりも野心的です。Delveはユーザーにとって関連性の高いコンテンツを表示することに重点を置いていましたが、Syntexはドキュメントにメタデータを追加できるため、理論上は手作業の労力を大幅に削減できます。例えば、Syntexは発注書を解析し、金額、顧客、顧客の所在地を算出し、別のプロセスで適切なチームに転送して注文処理を進めることができます。

ゼネラルマネージャーのセス・パットン氏によると、Syntexは画像、フォーム、非構造化文書という3種類のコンテンツを処理します。画像には「数千もの一般的なオブジェクト」をタグ付けし、手書きテキストを認識してタグを作成し、フォーム内のフィールドを読み取り、日付、数字、名前、住所などを解析します。

Syntexドキュメントは新しいコンテンツセンターに表示されます。コンテンツセンターでは、ドキュメントをライブラリに分類し、抽出されたメタデータを列として表示します。Syntexのタグ付け機能は、コンプライアンス、保持ラベルや機密ラベルの追加、暗号化、共有制限、条件付きアクセスポリシーなどの設定にも使用できます。

Creating a custom model in Syntex by training based on files which have labelled content, identifying the metadata

ラベル付けされたコンテンツを持つファイルに基づいてトレーニングし、メタデータを識別することで、Syntexでカスタムモデルを作成する

Syntexの最も興味深い点は、ドキュメントからメタデータを抽出するための新しいモデルをトレーニングできる点です。あらゆるビジネスには独自の用語とカテゴリがあります。Syntexにはモデル作成機能があり、「請負業者」や「料金」といったエンティティを定義し、既存のドキュメントにこれらのエンティティの値を示すラベルを付けて送信することで、AIが新しいドキュメントからメタデータを自動的に抽出できるモデルをトレーニングできます。

モデルをトレーニングするためのファイルはわずか5つ

Syntexのプログラムマネジメントディレクター、ナオミ・マネーペニー氏はIgniteで、特にユーザーが特定のコンテンツタイプについて肯定的な例と否定的な例の両方を提供する場合、わずか5つのファイルでトレーニングに十分であると述べました。メタデータを抽出するのが最も容易なコンテンツタイプであるフォーム処理には、専用のフォーム処理エンジンが搭載されています。

Syntex で処理されるコンテンツは SharePoint に保存されている必要はなく、Microsoft Graph コンテンツ コネクタを介して他のソースから取り込むこともできます。このようなソースの例としては、ファイル共有、Azure SQL、Box、Amazon S3、Google Drive、オンプレミスの SharePoint、Salesforce などがあります。

Microsoft は Ignite で、来年初めに Syntex に予定されている新機能について発表しました。これには、拡張されたモデル タイプ、集中モデル管理、ビジネス処理用の Syntex ベースのソリューション、Syntex と「Microsoft 365 全体のナレッジの改善」との統合強化などが含まれます。

少し漠然としていますが、同社は AI を活用したコンテンツ分析を 365 サービスにおける重要な要素とみなしているという印象を受けます。

DelveはSharePointライセンスユーザーには無料で提供されていましたが、SyntexはMicrosoft 365のE3またはE5加入者向けの有料サービスです。Igniteで発表されたスライドによると、価格設定はユーザー単位で「コンテンツコネクタでインデックス付けされ、プールされた500アイテム」に制限されており、複雑に見えます。また、フォーム処理のクレジットも付与されます。これらの制限を超えた場合は、おそらく追加料金が発生すると思われます。

これらすべてにおいて問題となるのは、Syntexのメリットに関して、同社が過剰な約束をしているのではないかということです。基盤となるデータサイエンスの複雑さを考慮すると、Syntexに限らず、同社の他のコグニティブサービスポートフォリオにおいても、AIサービスの利用を簡素化する同社の能力は疑う余地がありません。

しかし、AIは本質的に不完全な技術であり、例えば文書が機密文書であるかどうかを判断するなど、ビジネス環境において組織がAIに過度に依存すると懸念されます。有料サービスとして、Syntexはコストに見合うだけの精度を提供しなければなりません。

Syntex が成功するかどうかに関わらず、Microsoft は、ドキュメント管理分野の他の企業と同様に、これらの非構造化データのリポジトリをよりよく理解するために AI テクノロジを適用し続けることは間違いありません。®

Discover More