オピニオンオープンソース・イニシアティブ(OSI)とその支持団体は、オープンソースAIの定義策定に着実に近づいています。すべてが順調に進めば、OSIのエグゼクティブディレクターであるステファノ・マフルリ氏は、10月下旬に開催されるAll Things OpenでOSIのオープンソースAIの定義を発表する予定です。しかし、オープンソース界のリーダーの中には、既にこの定義に一切関わりたくないという人もいます。
オープンソース・イニシアティブはオープンソースAIを定義しようとしている
続きを読む
まずは背景からお話しましょう。多くの企業(Meta社もそうですが)が、自社のAIモデルはオープンソースだと主張していますが、実際はそうではありません。ましてや、オープンソースに近いものなどありません。
そこでOSIをはじめとする多くの企業や団体が、包括的なオープンソースAIの定義の作成に取り組んできました。OSIは、オープンソースソフトウェアをオープンソース定義で定義している組織なのです。
香港で開催されたKubeConとOpen Source Summit Asiaで発表された最新ドラフト「オープンソースAI定義(ドラフトv.0.0.9)」には、一部のオープンソース支持者の神経を逆なでするほどの大きな変更が加えられました。変更内容は以下のとおりです。
- トレーニングデータの役割:トレーニングデータはAIシステムの修正に有益ですが、必須ではありません。この決定は、法的およびプライバシー上の懸念を含む、データ共有の複雑さを反映しています。草案では、トレーニングデータをオープンデータ、公開データ、共有不可の非公開データに分類し、それぞれにAIシステムのバイアスに関する透明性と理解を高めるための具体的なガイドラインが設けられています。
- チェックリストの分離:モデルオープンネスフレームワーク(MOF)に沿い、ライセンス評価チェックリストをメインの定義文書から分離しました。これにより、定義における一般原則を維持しながら、オープンソースAIの特定に関する集中的な議論が可能になります。
Linux Foundationのエグゼクティブディレクター、ジム・ゼムリン氏がKubeConとOpen Source Summit Chinaで説明したように、MOFは「モデルがオープンであるかどうかを評価するのに役立つ手段であり、モデルを格付けすることを可能にする」ものです。
ゼムリン氏は、MOFには3つのオープン性レベルがあると付け加えた。「最上位レベルであるレベル1は、オープンサイエンスの定義であり、データ、使用されるすべてのコンポーネント、そしてすべての指示が、モデル作成において同じ方法で利用されなければなりません。レベル2は、すべてがオープンではないものの、大部分はオープンであるサブセットです。そしてレベル3では、データが利用できない可能性のある領域と、データセットを記述するデータが利用可能になる領域があります。モデルはオープンですが、すべてのデータが利用可能ではないことを理解しておいていただきたいと思います。」
これは一部の人には受け入れられない。ソブリン・テック・ファンドのFOSSテクノロジスト、タラ・タラキイ氏はこう書いている。「独自のデータに基づいてしか構築できないシステムは、独自のものになるしかない。この自明の理以上に単純なことはない。」
タラキイ氏はこう付け加えた。「新しい定義には、動物園を始められるほど多くの曖昧な言葉が含まれている。これらの言葉は、本質的にはプロプライエタリなAIシステムが自らをオープンソースと呼ぶための、納屋ほどの大きさの裏口を提供しているのだ。」
オープンソースリーダーのジュリア・フェライオリ氏も同意見だ。「現在の草案におけるオープンソースAIの定義は、オープンソースであることの意味そのものを曖昧にしている。オープンソースの支持者の多くが、この非常に現実的で差し迫ったリスクに気づいていないことに、私は全く驚いている。」
AWS のプリンシパル オープンソース テクニカル ストラテジストであるトム キャラウェイ氏は、最新の草案が公開される前に次のように述べました。「現在のオープンソース AI 定義では、AI システムがユーザーに対して実行、コピー、配布、研究、変更、改善する無制限の権利を確実に保持していないというのが私の強い信念です (そしてオープンソースに関わる他の多くの人々もそう信じています)。」
- インテルのプロセッサの失敗:ビジネスとエンジニアリングの教訓
- CrowdStrikeはマーフィーの法則に遭遇しました。
- 高齢化が進むオープンソースコミュニティには新鮮な血が必要だ
- Windows: 設計上安全ではない
その後、キャラウェイ氏は怒りよりも悲しみに満ちた声明でこう述べた。「OSIが欠陥のある定義を選択した決定に深く失望しています。彼らが意欲的な定義を提示してくれることを期待していました。しかし、私たちはオープンなプロセスの仮面を被った、同じ言い訳と妥協しか得られませんでした。」
AWSのオープンソース戦略&マーケティング担当シニアデベロッパーアドボケート、クリス・ショート氏も同意見です。彼はキャラウェイ氏に対し、「この定義を採用することは、OSIだけでなくオープンソース全体にとって最善の利益にならないと心から信じています。オープンソースの価値は完全に薄れてしまうでしょう」と返答しました。
開発者支援コンサルタントのスティーブ・ポスティ氏は、OSI AI草案について次のようにコメントしています。「この定義は変更の自由を与えておらず、オープンソース定義としては受け入れられません。AIモデルでは、重みがユーザーインターフェースとなります。ユーザーとして直接使用できます。重みは通常、すべての人に配布されるものです。」
それはそれで良いのですが、マフルリ氏は、オープンソースAIの定義に対する純粋に理想主義的なアプローチは、誰もその定義を満たすことができないため、うまくいかないと考えています。そのため、OSIはMOFのオープン性レベルアプローチを支持しています。
キャラウェイ氏はこう締めくくった。「彼らにはリーダーになるチャンスがあったのに、それを選ばなかった。今、問われているのは、彼らに代わって誰がリーダーとなるかということだろう。」
まさにそれが疑問です。それとも、コミュニティはOSI AI定義こそが最善の現実的な道だと判断するのでしょうか?今後の展開にご注目ください。この議論は何年も続くのではないかと懸念しています。
私が本当に疑問に思うのは、AI がマーケティング用語として以外は「オープンソース」に言及することなく快活に進んでいく一方で、これが vi 対 EMACS (ちなみに答えは vi です) のような意味のない技術的議論になるかどうかです。®