「DPU」のご紹介 – CPUやGPUを無駄にできない場所向けに設計された高速ネットワークカード

Table of Contents

「DPU」のご紹介 – CPUやGPUを無駄にできない場所向けに設計された高速ネットワークカード

分析ファイアウォールやストレージ アレイを開けてみると、マザーボード上にコンポーネント メーカー Marvell の「Octeon」というチップが見つかるかもしれません。

Octeonの使命は、アプライアンスメーカーにネットワークとセキュリティ関連の処理を担うチップを提供することで、優れたファイアウォールやストレージアレイの構築に集中できるようにすることです。このチップは16コアまで拡張可能で、プログラム可能です。ファイアウォールベンダーはネットワークトラフィックの検査を行うように設定でき、アレイメーカーはディスクからCPUやネットワークへのデータ配信方法を調整できます。Octeonを使ってこれらの低レベルタスクを実行することは、アプライアンスのCPUがファイアウォールやストレージアレイの実行に集中できるという点で有用です。

The Register がこの短い歴史講座を提供しているのは、Octeon がよく使用される別のハードウェアであるネットワーク インターフェイス コントローラ (NIC) のおかげで、この講座が何度も語られることになるからです。

数年前、NICはスマート化しました。ベンダーは、Octeonの利便性を高めるファームウェアと同じ種類のファームウェアを搭載できるよう、中程度の性能を持つコンピューティングコアと少量のストレージを搭載し始めました。繰り返しになりますが、その目的はデバイスのメインプロセッサを本来の業務に集中させることですが、これらの強化されたNIC(「SmartNIC」と呼ばれる)の場合、対象となるデバイスはサーバーです。

ハイパースケールクラウドは、サーバーのCPUコアをレンタルすることで収益を上げているため、SmartNICの将来性を高く評価していました。しかし、これらのコアの一部はネットワークやセキュリティ関連の処理で忙しくしていました。クラウド内のサーバーの多くは複数の顧客の仮想マシンをホストしており、クラウドのネットワークとセキュリティは非常に複雑になっています。そのため、ハイパースケーラーは、CPUコアを解放し、顧客のワークロードを他のテナントやインターネット全体の脅威からさらに分離するために、一部の処理をSmartNICにオフロードする可能性を見出しました。

NVIDIA EGX A 100 GPU/DPU

NVIDIA EGX A 100 GPU/DPU。クリックして拡大

Oracle は、第 2 世代のクラウドで SmartNIC を初めて使用したと考えています。これは、Big Red の取り組みが公開される数か月前に Amazon Web Services の「Nitro」が発表されたとはいえ、真実である可能性があります。

クラウド計測の競争はさておき、SmartNICはハイパースケーラーにとって今や標準となっています。AlibabaとBaiduはSmartNICを使用していることが知られており、Googleは裏でSmartNICを使用している疑いがあり、Microsoftもフィールドプログラマブルゲートアレイで同様のことを行っています。

SmartNIC はデータの移動を目的としていることから、現在ではデータ処理ユニット (DPU) として説明されており、AI などの要求の厳しいワークロードに不可欠なものとして進化しています。

「DPUはデータの中身を調べ、ストレージ、圧縮、セキュリティを実行するのに非常に優れています」と、NVIDIAのマーケティング担当副社長ケビン・デイアリング氏はThe Registerに語った。クラウドのレイテンシのためにリアルタイム分析などの作業にクラウドを利用できないユーザーは、RAMとGPUを豊富に搭載したオンプレミスサーバーに多額の投資をするため、この点が重要である。したがって、GPUをI/OではなくAI処理に自由に使えるようにするあらゆる機能は歓迎される。

5Gもまた、有望なユースケースの一つです。新しいプロトコルでは、ネットワーク機能がソフトウェアにプッシュされることが想定されており、ネットワークを処理するハードウェア上でそのようなコードを実行することは、CPUまで処理を渡すのではなく、トラフィックが移動する場所で処理が行われるため、有用です。SmartNICは、サーバーにコプロセッサを追加することで、基地局や屋上など、5Gネットワ​​ークハードウェアが稼働するスペースが限られた場所で稼働するデバイスのコンピューティング密度も向上させます。

NVIDIA の Deierling 氏はまた、AI などのアプリケーションがデータセンターから世界へ、そして世界から世界へという方向よりも、東から西へ (データセンター内) という方向へより多くのデータを送信するようになり、サーバー上のファイアウォールが重要になってきているため、SmartNIC が便利だと指摘しています。」

「境界に設置する従来のファイアウォールではもはや不十分だ」と彼は主張する。「高速化された分散アプリケーションによって生成されるトラフィックに見合ったセキュリティ対策が必要なのだ。」

Deierling 氏は GPU の存在を前提としており、そのコアとメモリも DPU オフロードの保護に値すると示唆しているため、「高速化されたアプリ」という用語を使用していることに注目してください。

NVIDIAは、GPUとDPUを統合することでメリットが得られると考えています。同社が近々リリースするEGXプラットフォームはまさにそれを実現します。

残念ながら、GPU を実際に動作させるのは簡単ではありません。NVIDIA は SDK を用意し、DPU を駆動するための独自のソフトウェアも提供しています。Marvell は、自社のキットが Data Plane Development Kit に対応していることを確認しています。Data Plane Development Kit は、Intel が設立し、Linux Foundation が監督するプロジェクトであり、「多様な CPU アーキテクチャ上で実行されるパケット処理ワークロードを高速化すること」を目的としています。

Marvell のインフラストラクチャ事業部門副社長 John Sakamoto 氏はThe Registerに対し、カスタム コードを作成する必要がある人は DPU の機能が必要なときに DPDK 仕様を使用していると見ていると語った。

しかし、ハイパースケーラー、アプライアンスビルダー、および本格的な AI 導入者はネットワーク コードの削減に満足しているものの、ほとんどのユーザーは当然ながら既製の製品で十分満足しています。

アプライアンスを使用するかソフトウェア ファイアウォールを実行する代わりに、SmartNIC/DPU でファイアウォールを実行したい場合、優先ベンダーにはアクセラレータで実行できるものがほとんどありません。

そのため、アナリスト会社ガートナーの2020年エンタープライズネットワーキングのハイプサイクルでは、「機能アクセラレータカード」と呼ばれるSmartNICを、現在「対象ユーザーの1%未満」に適用可能と評価しています。

しかし、The Registerがこの記事を書いたのは、変化の兆しが見えているからです。VMwareはSmartNIC上でESXiハイパーバイザーを実証しました。前述の通り、NVIDIAは近日発売予定のGPUにこれを搭載する予定です。Marvellも新たなニュースを控えています。そしてArmはストレージ高速化専用のDPU設計を開発しました。

そして、それほど遠くないうちに、上記の段落で紹介したニュースのいくつかによって、ハイパースケール クラウドであれ、独自のサーバー群であれ、ほぼあらゆるデータ センターの運用を検討する新しい方法が生まれるでしょう。®

Discover More