HDS は、複数の構造化データ サイロと非構造化データ サイロ内のコンテンツを検索して読み取り、分析できるソフトウェア、Hitachi Content Intelligence を発表しました。
HCIはサイロからデータを抽出し、ワークフローに投入して様々な方法で処理することができます。HCIのユーザーには権限を付与することで、機密性の高いコンテンツは関係者のみが閲覧でき、ドキュメントセキュリティ管理の侵害を防ぐことができます。HDSによると、HCIはIT環境全体にわたって標準化された一貫性のあるエンタープライズ検索プロセスを構築できるとのことです。
HDSによると、HCIは異機種混在のデータサイロや複数の場所に分散した多構造化データに接続し、集約します。HCIは、組織のあらゆるデータの自動抽出、分類、エンリッチメント、そしてカテゴリー化を実現すると主張しています。「すべて」という言葉に注目すると、HCIは文字通り組織のあらゆるデジタルデータにアクセスできると言っていることがわかります。これは非常に大きな仕事です。
HCI は、カスタマイズされたデータ接続、変換ステージ、または新しいアプリケーションの構築をサポートする公開アプリケーション プログラミング インターフェイス (API) によって拡張可能です。
これは、ファイルの同期と共有、クラウドストレージゲートウェイ、そして新たに検索と分析機能を提供するHDSのオブジェクトストレージポートフォリオ(HCP)の一部です。HCIは、物理サーバーまたは仮想サーバー上で実行でき、パブリッククラウドまたはプライベートクラウドでホストすることもできます。コンテナセットとしてインスタンス化され、詳細なクエリとアドホックな自然言語検索をサポートするセルフサービス機能としてユーザーに提供されます。
これらの用途に合わせてパーソナライズされた結果を提供します。さらに、古いデータを検出し、低コストのオンラインアーカイブにストリーミングすることもできます。
全体として、これはコンテンツインテリジェンス機能の重要な部分です。その主張は非常に素晴らしいので、文字通り受け取ると、額面通りに受け取るのが難しくなるほどです。
私たちは、日立データシステムズの新興技術担当シニアディレクターであるスコット・ベイカー氏に、 HCI に関する「すべて」およびその他の主張を明確にする質問をしました。
インタビューの詳細をメールで送る
HCI はどのようなマルチ構造サイロをサポートしていますか?
Scott Baker Content Intelligenceには、Hitachi Content Platform、Hitachi Data Ingestor、HCP Anywhere、S3ホスト型リポジトリ、ファイルシステム(CIFS/NFS)をサポートするデータコネクタが付属しています。Content Intelligenceは完全なドキュメント化されており、パートナーやお客様がここに記載されていないデータリポジトリへの接続を作成するために使用できるサンプルを含むソフトウェア開発キットも含まれています。
詳細なクエリやアドホックな自然言語検索のサポートはどのように組み込まれていますか? (つまり、「X 線を扱う組織のすべてのデータ ストアにはどのようなコンテンツがありますか?」などの質問に対処できますか?)
Scott Bakerコンテンツインテリジェンスでは、ユーザーは以下の方法でデータをナビゲートできます。ファセットベースのナビゲーション、つまり類似のデータを1つのカテゴリにグループ化する機能です。あなたの例では、データ処理中にメタデータタグを使用して、X線画像を含むすべてのファイルソースにタグを付け、それをカテゴリとして設定し、ユーザーがすぐに選択して、結果のドキュメントリストで承認されているすべてのドキュメントを表示できるようにすることができます。
絞り込み機能を使用すると、結果を特定の属性や範囲に限定することができます。例えば、「日付1から日付2の間に撮影されたX線写真を含むすべてのファイルを表示する」、「これらの(n)施設で撮影されたX線写真を含むすべてのファイルを表示する」などです。パターンマッチングやデータプロファイリングを使用すると、ファイルに含まれる内容に基づいてファイルを具体的に分離することができます。例えば、特定のX線写真に関連付けられ、(ファイル処理中に使用されるパターンによって)個人を特定できる情報を含むデータを含むすべてのファイルを検索できます。
アドホッククエリは自然言語形式でも使用でき、コンテンツインテリジェンスが入力候補のレコメンデーションを提供します。結果は、クエリ全体に最も一致するファイルに基づいてランク付けされ、ヒット箇所のハイライト表示も利用できます。複数語のクエリは暗黙的に「OR」検索(例:「What」OR「content」OR「do」…)となりますが、引用符を使用することで「AND」検索に変換できます。
検索言語は何ですか?
スコット・ベイカー上記のエンドユーザーのクエリまたはナビゲーションは最終的にSolrQuerySyntaxとなり、Content Intelligenceのインデックスエンジンによって処理され、指定されたクエリに最も一致する結果を返すために使用されます。これらの結果は、ブースト値、関連性ランキング、除外、ブラックリストファイルなどの追加パラメータによって増幅される可能性があります。
すべての顧客データをどのように自動的に抽出、分類、拡充、分類するのでしょうか?
スコット・ベイカーワークフローが作成されると、データ接続が定義され、接続されたリポジトリで検出されたデータは、ワークフローのパイプラインの各ステージで処理されます。これらのパイプラインでは、コンテンツとメタデータの抽出、データ型またはメタデータ値に基づくコンテンツの分類、データの正規化のためのステップの使用、メタデータの追加、特定のパターン(個人を特定できるデータなど)の検索など、様々な処理が行われます。条件に応じて実行できる処理ステップは24種類あり、コンテンツ分析、変換、エンリッチメント、フィルタリング、インメモリ抽出、そしてもちろんSDKを使用したカスタムステップの作成などが含まれます。これらのワークフローは、オンデマンドで実行することも、周期的に実行するようにスケジュールすることもできます。
本当に?顧客のデータ全部?その主張を証明していただけますか?
スコット・ベイカー:はい。少し独創的な表現かもしれませんが、基本的には答えは「イエス」です。この主張を裏付けるのは、コンテンツインテリジェンスの拡張性です。私たちが提供していないコネクタが必要な場合は、ご自身で構築できます。標準装備されていない方法でデータを処理したい場合は、ご自身で構築できます。私たちが提供していないインターフェースで結果を表示したい場合は、RESTful APIを使用して、ご希望の方法/アプリでデータをレンダリングできます。
生成されたメタデータはどこに保存されますか?
スコット・ベイカー:データ処理の目的によって異なります。集中管理されたインデックスを作成し、ソースデータに影響を与えないことが目的であれば、ワークフローによって実行されるすべてのアクションと、その結果として抽出されるメタデータとコンテンツはSolrインデックスに保存されます。Solrの特定の機能を使用して、複数のインスタンス間でインデックスのバランスをとることで、検索パフォーマンスを向上させ、インデックスの損失を防ぎます。つまり、探索や発見活動を行っているユーザーの近くにインデックスを配置できるということです。
HCPおよびS3ロケーションのデータコネクタには、「書き込み」アクションを関連付けることもできます。これには、データ、メタデータ、カスタムメタデータ、保持期間の設定、保持期間の適用、特権削除の実行、特権保持の実行などが含まれます。これは、コンテンツインテリジェンスを使用してデータをインテリジェントに移行し、新しいリポジトリへの書き込み時に作成されたすべてのカスタムメタデータを関連付けたいと考えている方にとって最適なユースケースです。
コンテンツの内部も見れますか?
スコット・ベイカーはい。コンテンツインテリジェンスは、表面レベルのコンテンツ識別、サブサーフェス(ファイルのマジックヘッダー)、または深層レベルのコンテンツ識別を実行できます。抽出、変換、パターンマッチング、プロファイリング、読み込みに関しては、コンテンツインテリジェンスはファイル全体を使用します。これには、各ドキュメントが個別に抽出および処理されるファイルコンテナ(pst、zip、tar、mboxなど)も含まれます。
リリースには、HCIは「アクセスできない、暗くなった、または紛失したデータによるビジネスリスクと露出を最小限に抑える」と書かれていますが、リスクを完全に解消するわけではないようですね。これは正しいでしょうか?
スコット・ベイカー:その通りです。リスクを完全に解消するには、ある程度の自動化が必要です。製品の成熟度という点では、ユーザーにリスクを認識してもらうことは重要ですが、リスクを最小限に抑えるための適切な措置を講じるのはユーザー自身です。唯一の例外は、HCPやS3のデータコネクタを使用して、これらの隠蔽されたアクセス頻度の低いリポジトリからデータを移行する場合です。この場合、HCPの管理機能とガバナンス機能を適用することで、ある程度の自動化を行い、リスクを排除できます。
これは、古いデータを検出して、何にどのように吸い上げるかという階層化メカニズムです。
Scott Bakerユーザーは、プライマリ データに接続し、条件に応じてファイルを分離するワークフロー (つまり、過去 30 日間にアクセスされていないすべてのファイル) を構築し、それらを HCP に移行できます。
HCI ソフトウェアはサーバー上で実行されますか? どのサーバーですか?
Scott Baker Content Intelligenceはソフトウェアのみのソリューションです。ベアメタル、仮想マシン、クラウド(AWSなど)に導入可能です。Docker 1.10以降が動作可能な64ビットLinuxディストリビューションが必要です。これにより、ユースケースに最適なプラットフォームにContent Intelligenceを導入できます。最小要件として、4コア以上、16GB以上のRAM、64GBのディスク容量が必要です。当然のことながら、RAMの容量が大きければ大きいほど、各インスタンスで処理できるプロセスとリクエストの数が増えます。
個々のユーザーに合わせてカスタマイズされた結果をどのように提供するのでしょうか?
スコット・ベイカーワークフローから作成されるインデックスは、結果の表示方法をカスタマイズできます。ワークフローデザイナーでは、特定のユーザーまたはグループユーザーに関連付けられたクエリ設定を定義します。これにより、クエリ可能なインデックス、表示可能なフィールド、ナビゲートに使用できるファセットの種類、使用できる絞り込みの種類、そして最終的にはエンドユーザーアプリケーションで結果セットがどのようにレンダリングされるかが決まります。
カスタマイズされたデータ接続、変換ステージ、または新しいアプリケーションの構築をサポートする公開された API にはどのような拡張性がありますか?
スコット・ベイカー製品には、データ接続や処理ステージを構築するための、完全にドキュメント化されたソフトウェア開発キット(サンプルコードを含む)が付属しています。また、データアクセス用のRESTful APIセットも完全に公開されており、エンドユーザーアプリケーション(検索アプリ)で使用されています。
HCI の価格と入手可能時期を教えてください。
Scott Baker Content Intelligenceはコア単位でライセンス供与されます。Content Intelligenceの各インスタンスには最低4コアが必要です。より高性能でスケーラブルな環境が必要な場合は、Content Intelligenceをクラスター構成で実行できます。クラスターは最低4ノード(マスター3台とワーカー1台)で構成されますが、さらに大規模な構成も可能です。1コアあたりの定価は13,300米ドルですが、これは定価であり、割引が適用される場合があることにご注意ください。
製品の一般提供は12月16日です。®
* Scott Baker が HCI についてブログを書いています。