VMwareが、企業がベアメタルではなく仮想環境であらゆるものを運用することを望んでいるのは当然のことです。同社は長年にわたり、Hadoopスタックの仮想化を推進し、運用効率と管理性の向上を図ってきました。この実現のために開発されたツール「Project Serengeti」に、より多くのビッグデータクラスタ構築者に試用してもらうための機能強化が加えられました。
火曜日にリリースされた、Hadoop を仮想化するオープン ソース ツールである Serengeti 0.8.0 では、多数の新しい Hadoop リリースがサポートされるようになり、Hadoop 上に HBase データ ウェアハウスをより簡単にセットアップできる機能も追加されました。
Seregentiのアップデートは、仮想化大手のCTOオフィスの主任エンジニアであるリチャード・マクドゥーガル氏のブログ投稿で発表されました。「ほとんどのビッグデータ環境は、複数のワークロードが混在しています」とマクドゥーガル氏は説明します。「Serengetiの使命は、できるだけ多くのビッグデータ関連のワークロードを同じテーマパークに統合し、共通のプラットフォーム上で実行できるようにすることです。」
クラスターを仮想化することで、ビッグデータ処理ツールのさまざまな部分を共有ハードウェア上で実行し、必要に応じて各ワークロードを実行する仮想マシンをダイヤルアップし、他のワークロードが実行できるようにダイヤルダウンすることができます。
重要なのは、弾力的なスケーリングであり、そのために仮想化パフォーマンスに負担をかけることになります。多くのワークロードでは、サーバーにコアがぎっしり詰め込まれているため、このオーバーヘッドは許容範囲内でした。
VMwareはESXiサーバ仮想化の上にビッグデータツールを重ねたいと考えている
ほとんどの企業は、Hadoopクラスターをこのような観点から捉えることはなく、むしろ非常に特殊な機能を実行するものとして捉えている可能性が高いでしょう。彼らはバッチジョブやクエリのターンアラウンドタイム、そして他のアプリケーションがそれらの処理結果にどの程度依存しているかを懸念しており、仮想化によるパフォーマンスのオーバーヘッドを負担したくないのです。
しかし、VMwareは、仮想化によってあらゆる種類のビッグデータ処理においてサーバークラスタの混合モード利用が可能になるという構想を、今後も追求し続けるだろう。SerengetiがCloud Foundryプラットフォームクラウド、EMCのGreenplumデータウェアハウス、Hadoopディストリビューションとともに、今年後半にPivotalのスピンオフ企業に移管されれば、Pivotalグループも同様の姿勢を維持するだろう。
Serengeti 0.8.0リリースでは、ClouderaのCDH4とMapR TechnologiesのM5 Hadoopディストリビューションが仮想マシンコンテナ内で実行できるようになりました。オープンソースのApache 1.0ディストリビューションは既にサポートされており、EMCのGreenplum HD 1.2、Cloudera CDH3、Hortonworks Data Platform 1.0も同様です。
CHD4 リリースでは、Serengeti は HDFS1 または HDFS2 ファイル システムを使用できることを認識しており、Cloudera が Hadoop ディストリビューションに組み込んだフェデレーション NameNode サポートも認識しており、これらのオプションを構成する方法も把握しています。
また、MapR ディストリビューションでは、Serengeti は、MapR が HDFS の代わりに使用する NFS に似たファイル システムで使用されるコンテナー ロケーション データベース (CLDB) を同様に認識しており、MapR スタックの FileServer、JobTracker、および TaskTracker 要素についても把握しており、これらを virty マシンにパッケージ化して、コピーを複製することでパフォーマンスをスケールアウトする方法についても理解しています。
HBase データ ウェアハウスをセットアップする場合、Serengeti 0.8.0 リリース ノートに記載されているように、VMware ツールを使用すると、基盤となる HDFS ファイル システムを持ち、MapReduce データ マンチャーと、HBase を制御するために使用される Thrift および RESTful API にリンクされた HBase クラスターを作成できます。
Serengetiは、データウェアハウスのHMasterノードのアクティブおよびホットスタンバイのレプリカントを構成する方法も認識しており、HDFS上にデータウェアハウスをセットアップすると、HBase RegionalServersをスケールアウトできます。HBaseは、SerengetiによってApache Hadoop上に仮想的にデプロイできます。Cloudera、Hortonworks、Greenplumディストリビューションはサポートされていますが、何らかの理由でMapRディストリビューションはサポートされていません。
Serengeti 0.8.0 を搭載した仮想マシン アプライアンスは、VMware サイトから無料でダウンロードできます。®