AI ラウンドアップOpenAI は、GPT-4o 生成大規模言語モデル (LLM) の小型で安価なバージョンである GPT-4o Mini をクラウド経由で利用できるようにしました。
マイクロソフトが支援するスーパーラボは木曜日、GPT-4o Miniは、マルチモーダル(書き言葉だけでなくそれ以上のものを処理できる)という点で通常のGPT-4oに似ており、12万8000トークンのコンテキストウィンドウを持ち、2023年10月までの資料でトレーニングされたと発表した。ミニバージョンは最大1万6000トークンの出力を生成できる。
OpenAIの最上位モデルであるGPT-4oは、入力トークン100万個あたり5ドル、出力トークン100万個あたり15ドルの費用がかかりますが、Miniエディションは15セントと60セントです。遅延バッチ処理を使用すれば、これらの費用を半分に抑えることができます。
短縮版はまだ機能が充実しておらず、API経由でテキストと画像のみをサポートしているとのことです。音声などの他の入出力形式については、未定の将来に提供開始予定です。
OpenAIはGPT-4o Miniの開発にあたり、学習教材から有害なデータをフィルタリングし、GPT-4oと同じガードレールを装備することで、その安全性を強調しました。OpenAIによると、Miniには、以前の指示を無視したり、作成者の意図を無視したりするなど、モデルに本来行うべきではない行動を取らせようとする試みを阻止するメカニズムも搭載されています。
「APIのGPT-4o miniは、私たちの命令階層化手法を適用した最初のモデルであり、ジェイルブレイク、プロンプトインジェクション、システムプロンプト抽出に対するモデルの耐性向上に役立ちます」とスーパーラボは述べています。「これにより、モデルの応答の信頼性が向上し、大規模なアプリケーションでの使用がより安全になります。」
「GPT-4o miniの使用方法を継続的に監視し、新たなリスクが特定されたらモデルの安全性を向上させていきます。」
- マイクロソフトは規制当局の監視を回避するためOpenAIの役員会から退任した
- ChatGPTはトランプ対バイデンのCNN討論会が1~2分遅れたと誤って主張している
- OpenAIとGoogleがニュースでAIの取り組みを強化する契約を締結 – より良い情報源の時代が到来
- OpenAIは自社のAIモデルを批判するためのAIモデルを開発している
さらに、OpenAIはGPT-4o Miniがベンチマークにおいて同等のLLMを上回っていると主張しました。Googleの軽量版Gemini FlashやAnthropicのClaude Haikuと比較すると、Miniは通常、MMLUなどのテストにおいて5~15%高い精度を示しました。2つの外れ値では競合製品の2倍近くの精度を示し、もう1つの外れ値ではGemini Flashよりわずかに劣るものの、それでもClaude Haikuよりは優れているとされています。
OpenAIのGPTo Miniベンチマークスコアは競合他社と比較…良いものもあれば、かなり近いものもある –` クリックして拡大
OpenAIとAnthropicの競争には個人的な優位性がある。後者はOpenAIの幹部とエンジニアによって共同設立され、一部構築されたからだ。
GPT-4o Miniは上記のグラフでは確かに優れているように見えますが、総合的に見て圧倒的なリードを持っているわけではありません。これは、OpenAIが最近、LLM分野における絶対的なリーダーシップを失ったことを示しています。ベテランのオープンソース開発者であるSimon Willison氏が先月のAIエンジニア世界博覧会の基調講演で詳述したように、2024年にはOpenAIの競合他社の多くが独自のGPT-4クラスモデルをリリースしました。
サム・アルトマン、浸水・下水被害に遭った巨大マンションの「不良品」2700万ドルをめぐり建設業者を提訴
続きを読む
「GPT-4o、最新のClaude 3.5 Sonnet、そしてGoogle Gemini 1.5 Proという、最高のモデルがここに集結しました」とウィリスン氏は明言した。「これらはすべてGPT-4クラスに分類できます。これらは現在入手可能な最高のモデルであり、GPT-4以外にも選択肢があります。価格もそれほど高くなく、以前よりも大幅に安くなっています。」
GPT-4o MiniはMMLUの精度が82%、トークン100万個あたり15セントと、ほぼ他をリードしています。しかし、ウィリソン氏は、LMSYS Chatbot Arenaベンチマークは、実際の人間に出力を比較させてどちらが優れているかを判断するため、LLMの品質をより現実的に評価できると指摘しました。これは、異なるモデルをランク付けする、力ずくではありますが効果的な方法です。
GPT-4o Miniはトーナメント形式のベンチマークには含まれていないものの、フルサイズのGPT-4oはライバルをわずかに上回っているだけだと指摘した。AnthropicのフラッグシップモデルであるClaude 3.5 Sonnetは現在1,271ポイントで、GPT-4oは1,287ポイントを獲得している。Gemini 1.5 Proも1,267ポイントと、それほど差はない。パフォーマンスはやや劣るものの、それでも優秀なモデルとしては、NvidiaとMistralの最新モデルであるNemotron 4 340B Instructが1,209ポイント、MetaのLlaMa 3 70B Instructが1,201ポイントを獲得している。
ウィリスン氏はまた、Mini は Claude 3 Haiku や Gemini 1.5 Flash よりも安価であるとも指摘した。
OpenAIは、小規模から大規模まで、これらのテストスコアにおいて最高峰と言えるかもしれませんが、かつてのような圧倒的なリードはもはやありません。これはおそらく良いことかもしれません。高価なAIハードウェアと高い電力消費を考えると、AIにとってLLMの独占は最も必要ではなかったのです。®
ニューラルネットワークに関するその他のニュース…
フランスの新興企業Mistralは、NVIDIAと共同で、同研究所の「最新かつ最高の小型モデル」と称されるNeMoを学習させ、Apache 2.0オープンソースライセンスの下でリリースしました。NeMoは120億のパラメータと12万8000トークンのコンテキストウィンドウを備え、Mistral 7Bなどの互換モデルと置き換えて使用することができ、予想通り、テキスト、コード、その他類似の出力を生成することができます。
ドイツの研究機関DeepLは、英語と日本語、中国語、ドイツ語の相互翻訳が可能なモデルをリリースしました。同社は、このモデルがOpenAIのGPT-4、Google、Microsoftの「翻訳品質」を凌駕していると主張しています。同社はまた、フランス語とスペイン語のAIによるライティングのサポートにも取り組んでおり、今後はイタリア語とポルトガル語にも対応予定です。
先月、MetaはEUのプライバシー法を理由に、自社のAIモデルを欧州のデータで学習させないことを明らかにした。そして今回、Facebookの巨人である同社は、テキストだけでなく音声、動画、画像にも対応可能なマルチモーダルLlamaモデルをEUでリリースしないことを決定し、再び規制を理由に挙げている。
「今後数カ月以内にマルチモーダルなラマモデルをリリースする予定ですが、欧州の規制環境は予測不可能なため、EUではリリースしません」とメタの広報担当者は述べた。
Meta 社も同様の理由でブラジルでの生成 AI を廃止した。
Google、IBM、Intel、Microsoft、Nvidia、Amazon、Anthropic、Cisco、Cohere、OpenAI、Wizなどが、いわゆる「Coalition for Secure AI」を結成しました。この団体は、機械学習システムを安全に導入するための「ガイダンスとツール」をすべての人に提供することが期待されています。これはオープンソースの取り組みだと聞いています。
OpenAIは、AIサーバープロセッサの製造について、Broadcomやその他のチップ設計者(GoogleのTPUアクセラレータの開発に携わった人々を含む)と協議していると報じられている。
OpenAIは、GPTシリーズなどのLLMが、複雑かつ正確であるだけでなく、人間が理解し、使いやすいテキスト出力を生成することを基本的に促進する、独自のアプローチに関する論文[PDF]を発表しました。最適化された出力は時に人間を混乱させる可能性があり、このアルゴリズムは「証明者」モデルと「検証者」モデルを対決させることでこの問題に対処しようとしています。