Meta は、最新の大規模言語モデル (LLM)「Llama 3」を発表し、Google、Mistral、Anthropic などのより大規模なモデルに挑戦すると主張しています。
木曜日に長文の発表で明らかになったLlama 3は、80億から4000億を超えるパラメータを持つバージョンで利用可能です。参考までに、OpenAIとGoogleの最大規模のモデルは、パラメータ数が2兆に近づいています。
現時点では、Llama 3の80億と700億のパラメータテキストバリエーションにしかアクセスできません。Metaは最大規模かつ最も複雑なモデルのトレーニングをまだ完了していませんが、多言語対応かつマルチモーダルなモデルになることを示唆しています。つまり、複数のドメインに最適化された小規模モデルから構成されるということです。
Meta 社は、わずか 700 億のパラメータでも、Llama 3 ははるかに大規模なモデルと十分に互角に戦える能力があると主張しています。
Metaは、Llama3-8Bと70Bが、Gemini ProやAntrhopicのClaude 3を含むはるかに大型のモデルよりも優れた性能を発揮できると主張している – クリックして拡大
より良いデータ、より良いモデル
Metaによると、最大のメリットの一つは、12万8000個のトークン語彙を持つトークナイザーの使用によるものです。LLMの文脈では、トークンは数文字、単語全体、あるいはフレーズにまで及びます。AIは人間の入力をトークンに分解し、トークンの語彙を用いて出力を生成します。
Metaは、トークナイザーが言語のエンコードをより効率的にし、パフォーマンスを大幅に向上させると説明しました。さらに、より高品質なデータセットの使用と、トレーニング後の追加の微調整ステップにより、モデルのパフォーマンスと全体的な精度が向上しました。
具体的には、Meta は、Llama 3 が、公開されているソースから収集された 15 兆を超えるトークンで事前トレーニングされたことを明らかにしました。
Llama 3のトレーニングデータセットは、わずか9ヶ月前にリリースされたLlama 2と比べて7倍以上の大きさで、コード量は4倍に上ります。しかし、「ゴミを入れればゴミが出てくる」という諺があるように、MetaはLlama 3が可能な限り誤った情報でトレーニングされないように、一連のデータフィルタリングパイプラインを開発したと主張しています。
これらの品質管理には、ヒューリスティックフィルターとNSFWフィルター、データ重複除去、そしてトレーニング前に情報の品質を予測するテキスト分類器が含まれていました。Metaは、高品質なデータの識別に驚くほど優れているとされる旧モデルのLlama 2モデルも活用し、良質な情報とそうでない情報を選別しました。
トレーニングデータの5%は30以上の言語から取得されており、Metaは将来的にモデルの多言語対応能力をさらに強化するのに役立つと予測しています。現時点では、Social Network™️は、ユーザーは英語以外の言語では同等のパフォーマンスを期待できないと述べています。
小規模なモデルをこのような大規模なデータセットで訓練することは、一般的に計算時間の無駄であり、精度の収穫逓減をもたらすと考えられています。訓練データと計算リソースの理想的な組み合わせは、「チンチラ最適」[PDF]と呼ばれます。Metaによると、Llama3-8Bのような80億パラメータのモデルの場合、これは約2000億トークンになります。
しかし、Meta社はテストにおいて、Llama 3のパフォーマンスは、より大きなデータセットでトレーニングしても向上し続けることを発見しました。「80億パラメータモデルと700億パラメータモデルはどちらも、最大15兆トークンでトレーニングした後も対数線形に向上し続けました」とMeta社は記しています。
その結果、はるかに大規模なモデルに匹敵する結果を生成できる、比較的コンパクトなモデルが生まれたようです。小規模なモデルは一般的に推論が容易で、大規模な展開も容易であるため、計算コストのトレードオフは価値があると考えられたと考えられます。
8ビット精度では、80億パラメータのモデルに必要なメモリはわずか8GBです。4ビット精度に落とすと(それをサポートするハードウェアを使用するか、量子化によってモデルを圧縮する)、必要なメモリは約半分になります。
- マイクロソフトは今週、Windows Server 2022にCopilotを組み込むつもりはなかったと主張している。
- CEO退任からわずか数週間で、スタビリティAIがスタッフを大量解雇
- イスラエルのクラウド契約に抗議する座り込みデモで逮捕者が出た後、Googleは28人の従業員を解雇した
- マイクロソフトはAIブームを加速させるためデータセンターの容量を3倍にすることを目指している
Metaは、それぞれ24,000基のNvidia GPUを搭載した2つのコンピューティングクラスターでモデルをトレーニングしました。ご想像のとおり、このような大規模なクラスターでのトレーニングは高速ですが、いくつかの課題も伴います。トレーニング実行中に何かが失敗する可能性が高くなります。
これを軽減するため、Meta社はエラー検出、処理、メンテナンスを自動化するトレーニングスタックを開発したと説明した。また、トレーニング実行が中断された場合に備え、チェックポイントとロールバックのオーバーヘッドを削減するため、障害監視システムとストレージシステムも追加した。そして、完了後、Meta社はモデルに対し、一連のトレーニング後テストと微調整手順を実行した。
Llama3-8Bと70Bに加え、MetaはLlama Guard 2とCybersec Eval 2を含む、新規およびアップデートされた信頼性と安全性のためのツールもリリースしました。これらのツールは、ユーザーがモデルの不正使用やプロンプトインジェクション攻撃から保護するのに役立ちます。Code Shieldは、Llama 3によって生成された安全でないコードをフィルタリングするためのガードレールを提供するもう1つの追加機能です。
以前に報告したように、LLM 支援によるコード生成は、Meta が回避しようとしている興味深い攻撃ベクトルを生み出しています。
可用性
Metaは今後数ヶ月かけて、4000億を超えるパラメータ数、追加機能、言語、そしてより大きなコンテキストウィンドウをサポートするモデルなど、追加のモデルを展開する予定です。コンテキストウィンドウの拡大により、ユーザーは大規模なテキストブロックの要約など、より大規模で複雑なクエリを実行できるようになります。
Llama3-8B と 70B は現在、Meta の Web サイトからダウンロードできます。ただし、やや型破りなライセンス (特別な許可や支払いなしに Meta の大手ライバルがモデルを使用できないように設計されているようです) に問題がなければ、ダウンロードできます。
Llama 3はAmazon SageMakerでも利用可能です。Microsoft Azure、Google Cloud、Hugging Faceなどの企業も、このモデルを各社のプラットフォームに展開できるよう提供する予定です。
Llama3をお使いのマシンで試してみたい場合は、ローカルLLMの実行に関するガイドをこちらでご確認ください。インストールが完了したら、以下のコマンドを実行して起動できます。
オラマランラマ3
楽しんで、どうだったか教えてください。®