Apache Spark フレームワークのオリジナル作成者によって設立されたアメリカの新興企業 Databricks は、オープンソースの機械学習管理エンジン MLflow が本格的な導入の準備ができていると考えています。
リリースされたプラットフォームバージョン1.0は、コアAPIコンポーネントに重点を置いています。メトリクス処理と検索機能が改善され、従来サポートされていたAmazon S3、Azure Blob Storage、Google Cloud Storage、SFTP、NFSに加え、アーティファクトストアとしてHadoopのサポートが追加されました。
また、実験的な Open Neural Network Exchange (ONNX) モデル フレーバーと、MLflow モデルを提供できる Docker イメージを構築するための CLI コマンドも追加されています。
そして最後に、データ サイエンティストが Linux 以外のものを選択するという可能性は低いですが、MLflow クライアントには Windows サポートがあります。
MLflow を使用すると、データ サイエンティストは、ターゲット環境が個人のラップトップでもクラウド データ センターでも、実験を追跡および配布し、フレームワーク間でモデルをパッケージ化して共有し、展開することができます。
同社は昨年、Spark + AI SummitでMLflowプロジェクトのアルファ版をリリースした。
複数のコードアプローチ
機械学習の基本的なライフサイクル(生データの取得、準備、モデルの学習、そしてデプロイ)は、多くの変数と複雑な要素を伴います。数百もの異なるオープンソースツールやフレームワークが関与し、それぞれに数十もの設定可能なパラメータが存在します。
Facebook、Google、Uber はいずれも、この複雑さに対処するために独自のツールを構築しています。
MLflowは、ハイパースケーラーのようなコーディング力やエンジニアリング力を持たない組織における機械学習の負担を軽減するために設計されました。主要なMLライブラリ、アルゴリズム、デプロイメントツール、言語すべてに対応しています。
Databricks がオープンソース プロジェクトを開始し、あらゆるデータ沼を情報レイクに排水
続きを読む
このプロジェクトの目標の 1 つは、データ サイエンティストと、その成果物を本番環境に展開するエンジニア間のコラボレーションを改善することです。
真のオープンソース方式では、MLflow ユーザーは安定したリリースを待たずに実験を開始しました。Databricks によると、このプラットフォームはすでに機械学習のワークロードを管理するために何千もの組織に導入されており、同社はそれをマネージド サービスとして提供しています。
グループの努力
このプロジェクトは Databricks が開始したかもしれませんが、現在では Microsoft からの参加者も含め 100 人以上の貢献者がいます。
「この分野でオープンソースプロジェクトが生まれることに、人々は興奮している」と、データブリックスの共同創業者兼チーフテクノロジストのマテイ・ザカリア氏は昨年、エル・レグ紙に語った。
「彼らは ML プラットフォームを持つことに興奮しています。それは彼らの心に響くものであり、多くの人がすでに構築したいと思っていたものです。そして、コミュニティの努力によるプラットフォームを持つことは、企業が単独で構築できるものよりもはるかに優れたものになるでしょう。」
MLflow への次の主要な追加機能は、ユーザーが実験から展開、監視までの ML モデルのライフサイクルを管理できるようにするモデル レジストリです。
完全なリリースノートとプロジェクトのコード ベースは GitHub で参照できます。®