コラムサーバーレスが今、注目を集めています。しかし、多くの企業ITシステムと同様に、これは全くの誤称です。サーバーの数は以前と変わりませんが、タスク(あるいはマイクロサービス)はどのサーバーを使用しているかを把握していません。まるで同じ肉、違うシチューのようなものです。
先週水曜日、Amazonはサーバーレスを額面通りに受け止めることを決定しました。US-EAST-1リージョンがカエルの雨のようにクラウドから脱落し、数百ものサービスが機能不全に陥ったり、ダウンしたりしました。Adobe Spark、Roku、Flickr、iRobotなど、多くのサービスが機能不全に陥り、ダウンしました。Amazonは責任転嫁を急ぎましたが、誰も納得しませんでした。
突然、私たちは PC 以前の時代に戻りました。当時はすべてがメインフレーム上に存在し、IBM の指示に従っていましたが、それが気に入らない場合は、エコシステムの外で生きていくのは難しいでしょう。
AWSはUS-EAST-1のサービスに「深刻な障害」が発生していることを認め、サービスヘルスダッシュボードへの更新すら投稿できない
続きを読む
これはクラウドのあまり魅力的ではない側面の一つです。Amazonは、このようなインシデントで何が起こっているのかを開示したがらないことで有名です。友人が指摘したように、Microsoftははるかにオープンですが、信頼性ははるかに低いです。どちらにせよ、私たちは何が起こったのかを知ることができません。さらに重要なのは、これが米国東部1リージョンで再び発生するのか、それともAmazonの20以上のリージョンのどこかで発生するのか、私たちには分からないということです。Amazonがなぜ負荷を他の場所に移せなかったのかも謎です。クラウドは俊敏な負荷分散が全てだと言われていますが、どうやらそうではないようです。そのため、リスク管理が難しくなっています。
リスク管理はビジネスの核心です。魅力的でもなければ、理解しやすいものでもありませんが、生き残るための鍵です。Amazon、GCP、Azure、その他多くのクラウドは、スケーラビリティ、超高性能なサービス、管理ツールなど、延々と語りかけてきます。しかし、レジリエンス(回復力)に関する数字を尋ねても、返ってくるのは大まかな説明ばかりです。Amazonはレジリエンスを重視したシステム設計については多くのことを語っていますが、それがいつ必要になるかについての統計データについてはあまり語っていません。AmazonのCTO、ヴェルナー・フォーゲル氏は、「あらゆるものが常に機能不全に陥っている」と述べています。あまり役に立つ指標ではないと思うかもしれませんが、彼の言葉をそのまま信じるしかありません。
もちろん、クラウド プロバイダーの手を煩わせることなくこの問題を取り除き、プロバイダーが自由に回復力のあるエンジニアリングを行うかどうかを決め、商業的な結果を受け入れることができる解決策はあります。
サーバーレスに戻る
サーバーレスでは、ジョブとデータが仮想空間を漂い、APIを介して起動され、メッセージを介して通信されます。これは、2002年にグリッドコンピューティングと呼ばれていた当時と同様に、優れた考え方です。IBM、HP、富士通は、この新しい分散型インフラストラクチャの世界で勝利を収める態勢が整っていました。いや、まさにその通りです。彼らは失敗しました。既存の収益と環境を守らなければならない大企業は必ず失敗するからです。AWSは、その点を気にしなかったために勝利したのです。
それは間違っています
しかし、グリッドコンピューティングの一部でサーバーレス化されていないものがあります。それは、Adobe SparkingやFlickrの通信を支えていたデジタルダイヤルトーンです。グリッドはプロバイダー間で機能していました。当初は共通インターフェースによって余剰容量を活用する方法と考えられていましたが、グリッドを利用する際には、どの企業がどの作業を行っているのか必ずしも把握していませんでした。ダイヤルトーンを聞いて作業を送信するだけで、それで終わりでした。
様々なクラウドプロバイダーが提供する様々なサーバーレスサービスに、この仕組みをそのまま適用することは、それほど難しいことではありません。意思決定ロジックは、負荷分散ではなくルート設定を行うコントロールプレーンとしてオンプレミスに実装することも可能です。そして、価格、レイテンシ、過去の可用性や瞬間的な可用性といった様々な指標に基づいて判断し、特定のコンポーネントに不具合が生じるリスクを負うことも可能になります。あるいは、クライアントトラフィックに必要なクラウド内ルーティングと連携して、独立したブローカーが行うような仕組みになるかもしれません。これは試してみる価値のある興味深いモデルです。
デジタルダイヤルトーンは万能薬ではありません。クラウドプロバイダー自身のインフラストラクチャから管理とトラフィックの一部を奪うことになるため、スループットとレイテンシへの影響が大きくなり、新たな妥協が必要になります。
膨大なデータセットのリアルタイム分析を基盤としている企業の場合、膨大なサーバーレスコンピューティングとストレージの海を横切って、それを無計画に切り刻むのは容易ではありません。リスク分析は、例えば一般消費者向けデジタルコンテンツストレージとは大きく異なるものになるでしょう。しかし、サービスアーキテクチャが、流行りの言い回しを借りれば、ゼロまで自動的にスケールダウンするように構築されている場合、コールド状態からスケールアップする際に、コンポーネントがどのような経路を辿るかは考慮されない可能性があります。
重要なのは、クラウドプロバイダーがまだ高い信頼性を実現していないということではありません。彼らは既に実現しています。重要なのは、顧客であるあなたには、どの程度のトレードオフが自分にとって適切か、あるいは短期的な回復力や長期的なロックインのために企業にどの程度のリスクを譲り渡してもよいかを容易に判断できるツールがないということです。確かに、マルチクラウドは既に実現可能ですが、as-a-service はまだ実現していません。そして、as-a-service こそが魔法の力を発揮する場なのです。
究極の皮肉は、失うもののない第三者が既存のクラウド上にこれらすべてを実装し、かつて同じ手法で前世代を打倒した既存企業に、はるかに厳しい競争環境を強いることになることです。もしそうなりそうなら、激しい戦いが予想されます。テクノロジーの生き残りをかけた戦いを長年研究してきたある研究者はこう言います。「残念ながら彼らは生き残れないだろう。しかし、誰が生き残るだろうか?」®