イグアツィオ:起亜の部品で作られているが、1,000人のドライバーを乗せるとフェラーリより速い

Table of Contents

イグアツィオ:起亜の部品で作られているが、1,000人のドライバーを乗せるとフェラーリより速い

背景: 9月にIguazioを紹介しました。今週、イスラエルのヘルツリーヤ本社で、Assembled Hacksによる同社の徹底調査が行われました。

名前は南米のイグアスの滝を指し、大きな水を意味します。私たちはテクノロジーに浸かっていましたが、息を切らして水面に上がったとき、その一部を思い出しました。

出発点は、数十億の項目の元のデータ取り込みから分析実行までのビッグ データ分析ワークフローには通常、複数のクラウドネイティブ アプリケーション、ステートフル サービスとステートレス サービス、複数のデータ ストア、および複数ステップのパイプラインでの後続のストアへのデータ選択/フィルタリングが含まれるということです。

各ステップ間の遷移には時間と労力がかかり、比較的シンプルなプロセスパイプラインを備えた従来の構造化データベースアプリケーションと比較すると、速度が遅く非効率的です。イグアツィオ氏によると、この典型的な複数ステップのビッグデータプロセスパイプラインは第一世代のものです。第二世代では、複雑なメタデータ処理によって実現される統合データモデルが採用されています。

イグアツィオ_1

イグアツィオ計画

このメタデータ処理をクラスタサーバー、DRAM、NVMeフラッシュストレージを用いて行うことで、処理速度が向上し、ビッグデータ全体の処理時間が大幅に短縮されます。ホットデータをフラッシュメモリに保存/キャッシュし、データポイントを高密度ディスクにバックアップする仕組みを想像してみてください。この仕組みにより、コスト削減とスケーラビリティ向上が実現します。

同社は、ソフトウェア定義データを実装し、リアルタイムデータ分析の粒度を大幅に向上させたと述べています。データベースの上位にファイルシステムを実装し、クエリに使用しています。また、インメモリメタデータデータベースにより、メタデータ操作を可能な限り高速化しています。

イグアツィオ_2

Iguazio は、メモリ内でストレージ処理を行う Coho Data のようなものだと考えられます。

システムはデータの種類を認識しているため、さまざまな種類のデータを最も効率的な方法で保存できます。

属性へのポインタが存在するため、システムはオブジェクト全体を取得してクエリを実行する必要はありません。属性は、保存されているオブジェクトがオーディオ、ビデオ、オブジェクト、ストリームチャンクなど、どのようなものであるかを指定できます。ビデオの場合は、メタデータはフレームごとに設定できます。

Iguazioは、V3io製品によってクラウドネイティブ世界向けのストレージアレイを刷新したと発表しました。Linux OSをデシリアライズし、ロックを一切使用せず、メモリへのデータの予測プリフェッチ機能を備えています。

イグアツィオをラッキング

お客様は、高可用性のV3ioコントローラーノード3台と、3台分の24TBのフラッシュメモリを搭載したクラスターから始めることができます。1台のノードに障害が発生しても、レプリケーションによって2台のノードが残ります。

http://www.theregister.com/2016/08/16/hadoopery_comes_to_cohos_datastream_along_with_qos/

Iguazioラックには、アプリケーションサービスを提供するAPI/プロトコルゲートウェイのフロントエンドを提供する高密度サーバー群を収容できます。その下には、10/40/100GBのスイッチエンクロージャが2台配置されます。そしてその下には、フラッシュストレージを備えたクラスターノードが配置されます。

ラック内のこれらの下には、高密度ディスクエンクロージャであるJBODが配置されています。これは、システムオブジェクトプールを提供する高密度ディスクエンクロージャで、2.5インチ4TB SASディスクドライブを72台搭載し、最大1,150TBの総容量を誇ります。Iguazioは、キーと値のAPIを使用してJBODと通信します。

Iguazio はアレイ内で RDMA/Ethernet を使用しています。アクセス中のクライアントとの通信にこれを使用できますか?いいえ。ただし、クライアントのデータセンターに RDMA 設備がある場合は、RDMA が利用可能になる可能性があります。

JBODはNVMeF接続アレイにすることができます。Iguazioは、JBODSへのキーバリューストアアクセスをブロックではなく優先します。ただし、NVMeFアレイを使用する場合、Iguazioはブロックインターフェース上にKVS抽象化レイヤーを配置します。JBODのストレージ機能は、S3、Kineticドライブ、NFSなどの外部プールによって提供することもできますが、データアクセスはそれほど高速ではありません。これらの外部プールは、例えばS3 APIを使用して冷却データを階層化するために使用できます。管理者は、フィルター付きのSQLクエリを使用してメタデータを取得し、データライフサイクルルールを満たすオブジェクトを検索し、オブジェクトのバックアップ、スキャン、変換を行うことができます。

Iguazio 社は、すでに 3D XP0int SSD をテスト済みで、使用できる状態にあると述べています。

同社はエンタープライズ・ビッグデータ・ワークロードに注力していますが、HPCでの利用にも関心を持っています。HPCユーザーは高可用性を必要としないと述べています。エンドユーザー(データサイエンティスト)は、Iguazioアレイを分析処理エンジンとして直接利用できます。

Iguazio のソフトウェア アーキテクチャと実装は豊富で詳細であり、技術志向のシステム アーキテクトにとっては、私が説明した以上に深く調べて、設計の影響を理解する価値があります。

設立と資金調達

同社は2014年に設立され、2015年に1500万ドルのAラウンドの資金調達を実施した。創業者は6名と、かなり大規模なグループである。

  • アサフ・ソメク – 元Compass-EOS/Mellanox/VoltaireのCEO
  • ヤロン・ハヴィブ – 元 Mellanox の CTO
  • オリ・モーダル – 研究開発担当副社長
  • オリット・ニッサン・メッシング – チーフアーキテクト
  • ヤロン・セゲブ – 創業投資家、取締役。元共同創業者兼テクノロジー担当副社長(XtremIO/Voltaire)
  • エラン・ドゥチャン – 研究開発

Iguazio はイスラエルと米国に約 50 人の従業員を抱えており、同社の製品は金融サービス、IoT、クラウド サービス プロバイダーの複数の顧客に初期導入されており、急速な開発スケジュールを示しています。

コメント

Iguazio社によると、オンプレミスアレイのコストは3年間で月額0.03ドル/GBとAmazonよりも安く、200万IOPSを実現できるという。また、50万IOPSのWebサーバーを開発し、ソフトウェア定義によるきめ細かなデータ処理を100Gbpsで実現している。

Iguazio は Kia のコンポーネントからストレージ アレイ、つまりストレージ アプリケーション サーバーを構築したように私には思えます。これは、最も遅い要素がドライバーであるフェラーリよりも高速ですが、1,000 人のドライバーをサポートできます。

正直に言うと、このシステムは非常に豊富に設計され、詳細に作られているため、Iguazio の設計と実装のニュアンスと洗練性を理解するには、最新のビッグ データ分析データの取り込み、変換、および分析処理の詳細に精通している必要がありますが、私にはそれができません。

もしこれがお好きなら、バーチャルウェットスーツを着けて、イグアツィオの滝の魔術師によるデモとプレゼンテーションでびしょ濡れになってみませんか?きっと感動すること間違いなしです。®

Discover More