インタビューCrowdStrike の混乱は、更新プログラムによってコードが混乱した後に Windows カーネル内でソフトウェアが暴走したことが原因でした。eBPF はカーネルのトレースと観測性に役立つツールですが、CrowdStrike のインシデントを軽減できたでしょうか?
「興味深いことに、eBPF ランタイムに脆弱性があり、特定の Red Hat カーネルで CrowdStrike によって同様の障害が引き起こされました」と、可観測性スペシャリスト Grafana Labs の CTO である Tom Wilkie 氏はThe Registerに語っています。
CrowdStrikeのFalconセンサーもLinuxカーネルのパニックやクラッシュに関係している
続きを読む
ウィルキー氏が言及しているのは、6月に発生したインシデントです。Red Hatは、CrowdStrikeのユーザーランドeBPFベースのFalcon SensorコードがLinuxカーネルのバグを引き起こし、マシンをクラッシュさせる可能性があると顧客に警告しました。皮肉なことに、それからわずか数週間後、CrowdStrikeが作成・配布したカーネルレベルのFalconアップデートに不具合があり、世界中の850万台のWindowsコンピューターがブルースクリーンのブートループに陥りました。
つまり、LinuxカーネルのeBPF実装コードのプログラミングエラーによって、CrowdStrikeの製品が引き起こしたコンピュータのダウンが過去にもあったということです。これは信用に値しません。
eBPFは、アプリケーションをLinuxカーネル内の仮想マシン(VM)上で実行することを可能にします。これにより、開発者はカーネルレベルのモジュールを記述してロードしたり、カーネル自体にコードを追加して再構築・再デプロイしたりすることなく、実行時に機能を追加できます。理論上、eBPFプログラムはサンドボックス内で実行され、検証ツールによって安全性がチェックされているため、カーネルをクラッシュさせることはありません。一部のプログラムは低レベルで実行する必要があるため、eBPFは可観測性とセキュリティを実装する一般的な方法です。
しかし、Linuxカーネルのバグに遭遇し、マシンにパニックを引き起こしたのは、システムを監視するCrowdStrikeのeBPFプログラムでした。一方、この技術をWindowsに実装するための作業は進行中です。
eBPFは解決策になるかもしれないが、歴史的にはこれらの問題の原因でもあった。
「eBPFは解決策になるかもしれない」とウィルキー氏は続けた。「しかし、eBPFは歴史的にこれらの問題の原因でもあった。つまり、実行中のカーネルにコードを挿入することは根本的にリスクの高い行為だ。それがCrowdStrikeが抱えていた問題だった。そして、eBPFには依然としてバグが存在する可能性がある。eBPFランタイムとeBPF検証ツールが提供する安全性の保証は完璧ではないのだ。」
eBPFのコンセプトは優れていますが、実装には(他の実装と同様に)バグがあります。では、eBPFでCrowdStrikeのインシデントのような問題を検知できるでしょうか?はい、おそらく。しかし、正直なところ、テストをしっかり実施するだけでも検知できるはずです。これが私のアドバイスです。ソフトウェアエンジニアリングの衛生管理を強化することです。そして、これはCrowdStrikeが既に学んだ教訓です。
クロウストライクのCEO、ジョージ・カーツ氏は今月初めのゴールドマン・サックスのコミュナコピア・テクノロジーカンファレンスで、7月の惨事は異常な出来事が原因だったと語った。
「今回のケースでは」とカーツ氏は述べた。「設定変更がありましたが、コードはなく、センサーが使用する設定だけでした。そして検証プロセスを経て、すべての設定を検証しました。そして、それらは実際に機能しました。問題は、設定が21個あったのに、センサーが認識したのは20個だったことです。これが、何が起こったかの簡単な説明です。」
「プロセス面でどのような変更を行ったかと言えば、構成の変更を検証だけでなく、さまざまなコード QA プロセスに通して実行し、段階的に展開するとともに、お客様にコンテンツの展開方法を選択できるようにしたことです。」
今週ニューヨークで開催される ObservabilityCON で Grafana Labs が Explore アプリと Adaptive 機能の強化を発表するのを前に、Wilkie 氏は私たちに、クラウドの回帰とオープンソース開発への資金提供という別の現代的なテーマについても考えを語りました。
ユーザーがクラウド上で作業できるようにすることは、Grafanaのミッションの中核です。ウィルキー氏によると、同社はユーザー数と収益の両面でクラウドの利用が拡大し続けているとのことですが、ユーザーの回帰は起こっているのでしょうか?「その意見には同意します」と彼は認めています。
「過去 1 ~ 2 年で、ゼロ金利後のような市場に変化があったように感じます。人々はクラウドの経済性をより批判的に検討し、多くの SaaS や IaaS はコストの観点から実現不可能であることに気づき始めています。」
- クラウドストライク、世界的なIT障害を引き起こした「パーフェクトストーム」について議会に謝罪
- CrowdStrikeの障害後、10社中1社がセキュリティベンダーを解約
- CrowdStrikeの惨事後、マイクロソフトはウイルス対策をWindowsカーネルモードから移行するのは良い考えだと考えている
- クラウドストライクは、世界を破壊してから時間が経つにつれて法的脅威が薄れていくことを期待している
クラウド大手のAWSは、英国競争・市場庁への最近の提出書類の中で、数年前に時代遅れとして退けたオンプレミスのインフラとの激しい競争に直面していると警告した。
ウィルキー氏によると、Grafana Labsの解決策は、クラウドをより魅力的なものにすることだという。オンプレミス版もあるが、アダプティブメトリクスやログといった機能はクラウドでのみ利用可能だ。ウィルキー氏によると、顧客は多くのアプリケーションにおいて、独自に構築するよりもGrafana Labsのクラウドを利用する方が費用対効果が高いと考えているという。まあ、彼もそう思うだろう。
ここで、Grafana Labs がどのようにして存続可能なビジネスであり続けているのか、またどのサービスをオープンソース化し、どのサービスを独自のままにしておくのかをどのように決定するのかについて説明します。
...人々はクラウドの経済性をより批判的に検討し、多くのSaaSやIaaSがコストの観点から実現不可能であることに気づき始めています。
ウィルキー氏は次のように説明する。「私たちはこれを『スニフテスト』と呼んでいます。ある機能が、非常に多くの人々に広く利用されるものなら、オープンソースにします。一方、少数の企業や大規模な組織にしか魅力的でないものなら、商業的な差別化要因として残すことを検討します。」
彼は例を挙げてこう述べています。「Grafanaには200以上のデータソースがあり、Grafanaをほぼどこにでも接続できます。そのうち約170はオープンソースです。そのうち30は、Grafana Enterpriseの一部として販売している商用統合です。」
商用統合の良い例として、Datadogとの連携が挙げられます。弊社で最も人気のあるエンタープライズデータソースの一つがDatadogです。Datadogにメトリクスの保存料金をお支払いいただき、Grafanaで可視化したい場合は、弊社にも料金をお支払いいただけます。これは公平な価値交換と言えるでしょう。
ウィルキー氏はGrafanaのオープンソースプロジェクトにも言及しています。顧客はそれらを利用してソリューションを構築できますが、El Reg誌のケルシー・ハイタワー氏のコメントに倣い、Grafanaはクレジットカード情報の入力だけで数分で利用を開始できるマネージドサービスを喜んで販売します。®
編集者注:この記事は、Windows の世界的なメルトダウンの前に CrowdStrike が遭遇した BPF ベースの Linux カーネルのバグについての詳細を追加するために更新されました。