Llama.cpp を使用して、自宅でプライバシーを保ちながら LLM を操作してみましょう

Table of Contents

Llama.cpp を使用して、自宅でプライバシーを保ちながら LLM を操作してみましょう

大規模言語モデル(LLM)のハンズオントレーニングには、数百万ドル、あるいは数十億ドル規模のインフラが必要になる場合もありますが、その成果は想像以上に容易に得られる場合が多いです。AlibabaのQwen 3やOpenAIのgpt-ossなど、最近のリリースの多くは、比較的小規模なPCハードウェアでも実行できます。

LLMの仕組みを本当に理解したいなら、ローカルでLLMを実行することが不可欠です。また、優先アクセス料金を支払ったり、データをクラウドに送信したりすることなく、チャットボットに無制限にアクセスできます。よりシンプルなツールもありますが、コマンドラインでLlama.cppを起動すると、最高のパフォーマンスと多くのオプションを利用できます。これには、CPUまたはGPUへのワークロードの割り当て機能や、出力を高速化するためのモデルの量子化(圧縮)機能などが含まれます。

内部的には、Ollama、Jan、LM Studio など、PC または Mac 上でローカルにモデルを実行するための最も人気のあるフレームワークの多くは、実際には Llama.cpp のオープン ソース基盤上に構築されたラッパーであり、複雑さを抽象化してユーザー エクスペリエンスを向上させることを目指しています。

これらの利点により、初心者にとってローカル モデルの実行がそれほど難しくなくなる一方で、パフォーマンスと機能に関しては物足りない部分が多くあります。

本稿執筆時点では、OllamaはLlama.cppのVulkanバックエンドをまだサポートしていません。Vulkanは、特にAMD GPUとAPUにおいて、より広範な互換性と多くの場合、より高世代のパフォーマンスを提供します。また、LM StudioはVulkanをサポートしていますが、IntelのSYCLランタイムとGGUFモデル作成をサポートしていません。

この実践ガイドでは、アプリのビルドとインストール、GPU と CPU 間での LLM の展開と提供、量子化モデルの生成、パフォーマンスの最大化、ツール呼び出しの有効化など、Llama.cpp について詳しく説明します。

前提条件:

Llama.cppはRaspberry Piを含むほぼすべてのデバイスで動作します。ただし、最高のパフォーマンスを得るには、少なくとも16GBのシステムメモリを搭載したマシンを推奨します。

必須ではありませんが、Intel、AMD、またはNvidiaの専用GPUを使用するとパフォーマンスが大幅に向上します。お持ちの場合は、続行する前に、システムに最新のドライバーがインストールされていることを確認してください。

ほとんどのユーザーにとって、Llama.cpp のインストールは ZIP ファイルをダウンロードするのと同じくらい簡単です。

aptLlama.cpp は、、、snapなどのパッケージ マネージャーから入手できる場合もありますがWinGet、非常に頻繁に更新され、1 日に複数回更新されることもあるため、公式 GitHub ページから最新のコンパイル済みバイナリを取得するのが最適です。

Arm64 および x86-64 ベースのホスト CPU 上の macOS、Windows、Ubuntu 用のさまざまなアクセラレータおよびフレームワーク用のバイナリが利用可能です。

どれを購入すればよいかわからない場合は、次の簡単なチートシートをご覧ください。

  • エヌビディア: CUDA
  • インテルアーク/Xe: Sycl
  • AMD: Vulkan または HIP
  • クアルコム: OpenCL-Adreno
  • Apple Mシリーズ: macOS-Arm64

または、対応GPUをお持ちでない場合は、お使いのオペレーティングシステムとプロセッサアーキテクチャに適した「CPU」ビルドを入手してください。統合GPUはLlama.cppでの動作が不安定になる可能性があり、メモリ帯域幅の制約により、動作できたとしてもCPUベースの推論よりも高いパフォーマンスが得られない可能性があることに注意してください。

Llama.cpp をダウンロードしたら、簡単にアクセスできるようにフォルダーをホーム ディレクトリに解凍します。

ご希望のLinuxフレーバーまたはアクセラレータ用のビルド済みバイナリが見つからない場合は、後ほどLlama.cppをソースからビルドする方法を説明します。思ったより簡単に実行できますのでご安心ください。

macOS ユーザー:

WindowsおよびLinuxユーザーにはGitHubからプリコンパイル済みバイナリを入手することをお勧めしますが、macOSのプラットフォームセキュリティ対策により、署名されていないコードの実行が少々面倒になります。そのため、macOSユーザーにはbrewパッケージマネージャーを使用してLlama.cppをインストールすることをお勧めします。ただし、最新バージョンではない可能性があることにご注意ください。

Homebrewパッケージマネージャーの設定ガイドは、こちらにあります。Homebrewをインストールしたら、次のコマンドを実行してLlama.cppを取得できます。

brew install llama.cpp

最初のモデルのデプロイ

LM StudioやOllamaなどの他のアプリとは異なり、Llama.cppはコマンドラインユーティリティです。アクセスするには、ターミナルを開き、先ほどダウンロードしたフォルダに移動する必要があります。Linuxでは、バイナリはbuild/binディレクトリ配下に保存されますのでご注意ください。

cd フォルダ名をここに

次のコマンドを実行すると、デバイスのコマンドラインチャットインターフェース内でQwen3-8Bの4ビット量子化バージョンをダウンロードして実行できます。このモデルでは、少なくとも8GBのシステムメモリ、または少なくとも6GBのVRAMを搭載したGPUを推奨します。

./llama-cli -hfr bartowski/Qwen_Qwen3-8B-GGUF:Q4_K_M

Llama.cpp を を使用してインストールした場合は、 の前の をbrew省略できます。./llama-cli

モデルがダウンロードされると、起動には数秒しかかからず、基本的なコマンドライン チャット インターフェイスが表示されます。

Llama.cppを操作する最も簡単な方法はCLIを使うことです。

Llama.cpp を操作する最も簡単な方法は CLI を使用することです - クリックして拡大

Mシリーズのチップを使用している場合を除き、Llama.cppはデフォルトでモデルをシステムメモリにロードし、CPUで実行します。十分なメモリを搭載したGPUをお持ちの場合は、DDRは通常GDDRよりもはるかに遅いため、この方法は避けた方が良いでしょう。

GPUを使用するには、フラグを追加して、GPUにオフロードするレイヤー数を指定する必要があります-ngl。今回の場合、Qwen3-8Bは37レイヤーですが、不明な場合は-ngl999などに設定すると、モデルが完全にGPUで実行されることが保証されます。また、メモリが不足している場合は、この値を調整してモデルをシステムメモリとGPUメモリに分割することも可能です。この点については、後ほど高度なアプローチも含め、さらに詳しく説明します。

./llama-cli -hfr bartowski/Qwen_Qwen3-8B-GGUF:Q4_K_M -ngl 37

複数のデバイスを扱う

Llama.cpp は利用可能なすべての GPU を使用しようとするため、専用グラフィックカードと iGPU の両方が搭載されている場合は問題が発生する可能性があります。Windows 上で AMD W7900 を使用し、HIP バイナリを使用してテストしたところ、モデルが一部のレイヤーを CPU の統合グラフィックにオフロードしようとしたため、エラーが発生しました。

これを回避するには、<device>--device</device> フラグを使用して、Llama.cpp を実行する GPU を指定します。以下のコマンドを実行すると、利用可能なすべてのデバイスの一覧が表示されます。

./llama-cli --list-devices

次のような出力が表示されます。

利用可能なデバイス: ROCm0: AMD Radeon RX 7900 XT (20464 MiB、20314 MiB 空き容量) ROCm1: AMD Radeon(TM) グラフィックス (12498 MiB、12347 MiB 空き容量)

HIP、Vulkan、CUDA、OpenCLのいずれを使用しているかによって、バックエンドデバイス名が異なりますのでご注意ください。例えばCUDAを使用している場合は、CUDA0やCUDA1などと表示されることがあります。

次のように実行することで、優先GPUを使用してLlama.cppを起動できます。

./llama-cli -hfr bartowski/Qwen_Qwen3-8B-GGUF:Q4_K_M -ngl 37 --device ROCm0

モデルの提供:

CLIベースのチャットインターフェースは素晴らしいですが、Llama.cppを操作するための最も便利な方法とは言えません。代わりに、グラフィカルユーザーインターフェース(GUI)に接続することをお勧めします。

ありがたいことに、Llama.cppにはJanやOpen WebUIなど、OpenAI互換エンドポイントをサポートするあらゆるアプリに接続できるAPIサーバーが含まれています。基本的なGUIだけが必要な場合は、特別な操作は必要ありません。llama-server代わりにモデルを起動するだけです。

./llama-server -hfr bartowski/Qwen_Qwen3-8B-GGUF:Q4_K_M -ngl 37

しばらくすると、http://localhost:8080Web ブラウザで に移動して Web GUI を開くことができるようになります。

デフォルトでは、llama-serverでモデルを起動すると、モデルとチャットするための基本的なWebインターフェースが起動します。

デフォルトでは、llama-server でモデルを起動すると、モデルとチャットするための基本的な Web インターフェースが起動します - クリックして拡大

--host別のデバイスからサーバーにアクセスする場合は、アドレスを に設定してサーバーをネットワーク全体に公開する必要があります。0.0.0.0また、別のポートを使用する場合は、フラグを追加します--port。インターネットや大規模ネットワーク上の見知らぬ人にサーバーを公開する場合は、--api-keyフラグを設定することをお勧めします。

./llama-server -hfr bartowski/Qwen_Qwen3-8B-GGUF:Q4_K_M -ngl 37 --host 0.0.0.0 --port 8000 --api-key 最高機密

API は次の場所で利用できるようになります:

APIアドレス: http://ServerIP:8080/v1

独自のツールを作成する場合は、APIキーをベアラートークンとしてURLに渡す必要があります。OpenWeb UIなどの他のツールには、キーを入力できるフィールドがあり、残りの処理はクライアントアプリケーションが行います。

編集者注:ほとんどの家庭ユーザーにとって、モデルはルーターのファイアウォールの内側からデプロイされるため、比較的安全です。ただし、Llama.cppをクラウドで実行する場合は、必ず事前にファイアウォールをロックダウンしてください。

モデルを見つける場所

Llama.cppは、GGUF形式で量子化されたほとんどのモデルで動作します。これらのモデルは様々なモデルリポジトリで見つかりますが、中でもHugging Faceが最も人気があります。

特定のモデルを探している場合は、Bartowski、Unsloth、GGML-Org などのプロファイルを確認することをお勧めします。これらのプロファイルは通常、新しいモデルの GGUF クオンツを最初に公開するプロファイルの 1 つです。

Hugging Face をお使いの場合は、Llama.cpp から直接ダウンロードできます。実際、前の手順で Qwen3-8B をダウンロードしたのもこの方法で、モデルのリポジトリと希望する量子化レベルを指定する必要があります。

たとえば、-hfr bartowski/Qwen_Qwen3-8B-GGUF:Q8_0モデルの 8 ビット量子化バージョンをプルダウンし、 は-hfr bartowski/Qwen_Qwen3-8B-GGUF:IQ3_XS3 ビットの i-quant をダウンロードします。

一般的に言えば、小規模なクオンツは実行に必要なリソースが少なくなりますが、品質も低くなる傾向があります。

独自のモデルを量子化する

探しているモデルがGGUFとしてまだ提供されていない場合は、独自に作成できる可能性があります。Llama.cppは、モデルをGGUF形式に変換し、16ビットからより低い精度(通常は8-2ビット)に量子化して、低性能のハードウェアでも実行できるようにするためのツールを提供します。

これを実行するには、Llama.cpp リポジトリをクローンし、最新バージョンの Python をインストールする必要があります。Windows をご利用の場合は、Python パッケージをネイティブに操作するよりも、Windows Subsystem for Linux (WSL) でこの手順を実行する方が簡単であることがわかっています。WSL の設定についてサポートが必要な場合は、Microsoft のセットアップガイドをこちらでご覧いただけます。

git クローン https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

python3-pip次に、Pythonの仮想環境を作成し、依存関係をインストールする必要があります。まだインストールしていない場合は、python3-venvまずそれらを入手してください。

sudo apt install python3-pip python3-venv

次に、仮想環境を作成し、次のコマンドを実行してアクティブ化します。

python3 -m venv llama-cpp
ソース llama-cpp/bin/activate

これで、Python の依存関係を次のようにインストールできます。

pip インストール -r 要件.txt

そこから、convert_hf_to_gguf.pyスクリプトを使用して、安全なテンソル モデル (この場合は Microsoft の Phi4) を 16 ビット GGUF ファイルに変換できます。

python3.12 convert_hf_to_gguf.py --remote microsoft/phi-4 --outfile phi4-14b-FP16.gguf

マルチギガビットの相互接続がない限り、ダウンロードには数分かかります。ネイティブ精度でPhi 4は約30GBです。LlamaやGemmaなどのモデルをダウンロードしようとしてエラーが発生した場合は、まずHugging Faceで許可を申請し、huggingface-cli

huggingface-cli ログイン

ここから、モデルを必要なビット幅に量子化できます。量子化を使用すると、Q4_K_M品質をあまり損なうことなくモデルサイズを約4分の3に削減できるため、量子化を使用します。利用可能な量子化の完全なリストは、こちらで確認できます。または、 を実行することでも確認できますllama-quantize --help

./llama-quantize phi4-14b-FP16.gguf phi4-14b-Q4_K_M.gguf q4_k_m

モデルをテストするには、 を起動しますが、 を使用してHugging Face リポジトリを選択するllama-cliのではなく、 を使用して、新しく量子化されたモデルを指定します。-hfr-m

ラマ-cli -m phi4-14b-Q4_K_M.gguf -ngl 99

量子化について詳しく知りたい場合は、品質損失を測定して最小限に抑える方法を含むモデル圧縮専用のガイドをこちらから入手できます。

ソースからのビルド

Llama.cpp がハードウェアまたはオペレーティング システム用のコンパイル済みバイナリを提供しない場合は、ソースからアプリをビルドする必要があります。

Llama.cpp 開発チームは、CUDA、HIP、SYCL、CANN、MUSA など、あらゆるオペレーティングシステムとコンピューティングランタイムでソースからビルドする方法に関する包括的なドキュメントを公開しています。どのオペレーティングシステム向けにビルドする場合でも、まず最新のドライバーとランタイムがインストールされ、設定されていることを確認してください。

このデモでは、8GBのRaspberry Pi 5と、NVIDIA GPUを搭載したx86ベースのLinuxマシンの両方向けにLlama.cppをビルドします。どちらのマシンにもプリコンパイル済みのバイナリが存在しないためです。ホストOSにはUbuntu Server(RPI用は25.04、PC用は24.04)を使用します。

まず、apt を使用していくつかの依存関係をインストールします。

sudo apt install git cmake build-essential libcurl4-openssl-dev

次に、GitHub からリポジトリをクローンし、ディレクトリを開きます。

git クローン https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

そこからLlama.cppのビルドは非常に簡単です。開発者は、SYCL、CUDA、HIP、さらにはHuaweiのCANNやMoore Threads MUSAランタイムまで、ソースコードからのビルド手順をまとめた専用ページを用意しています。

RPI5 上で LLama.cpp をビルドする:

Raspberry Pi 5では、標準のビルドフラグを使用できます。-j 4ここでフラグを追加したのは、RPIの4つのコア間でプロセスを並列化するためです。

cmake -B ビルド
cmake --build ビルド --config リリース -j 4

x86 および CUDA 用の Llama.cpp をビルドする:

x86 ボックスの場合、次のコマンドを実行して、まず Nvidia ドライバーと CUDA ツールキットがインストールされていることを確認する必要があります。

sudo apt install nvidia-driver-570-server nvidia-cuda-toolkit
sudo 再起動

システムが再起動したら、llama.cpp フォルダを開き、次のコマンドを実行して CUDA サポート付きでビルドします。

cd llama.cpp
cmake -B ビルド -DGGML_CUDA=ON
cmake --build ビルド --config リリース

別のシステム用にビルドする場合や、問題が発生している場合は、Llama.cpp のドキュメントをご覧ください。

インストールの完了:

どのシステムでビルドするかに関わらず、完了するまでに数分かかる場合があります。完了すると、バイナリが/build/bin/フォルダに保存されます。

これらのバイナリをこのディレクトリから直接実行することも、ディレクトリにコピーしてインストールを完了することもできます/usr/bin

sudo cp /build/bin/ /usr/bin/

すべてが正しく動作していれば、次のコマンドを実行して、Google の新しい小さな言語モデル、Gemma 3 270M を起動できるはずです。

llama-cli -hfr bartowski/google_gemma-3-270m-it-qat-GGUF:bf16

Raspberry Pi で LLM を実行することをお勧めしますか? あまりお勧めできませんが、少なくとも実行できることはわかりました。

パフォーマンスチューニング

これまで、Llama.cpp でモデルをダウンロード、インストール、実行、提供、量子化する方法について説明してきましたが、これはその機能のほんの一部に過ぎません。

走ってみれllama-cli --helpば、引くレバーや回すノブが本当にたくさんあることが分かります。それでは、使える便利なフラグをいくつか見ていきましょう。

この例では、OpenAIのgpt-oss-20bモデルを実行するようにLlama.cppを設定し、パフォーマンスを最大化するためにいくつかの追加フラグを設定しました。一つずつ説明していきましょう。

./llama-server -hf ggml-org/gpt-oss-20b-GGUF --jinja -fa -c 16384 -np 2 --cache-reuse 256 -ngl 99

-fa— 対応プラットフォームでFlash Attentionを有効にすると、プロンプトの処理時間が大幅に短縮され、メモリ使用量も削減されます。ほとんどの環境で効果があると確認されていますが、効果を確かめるために、有効と無効をそれぞれ試してみる価値はあります。

-c 16384— モデルのコンテキストウィンドウ(短期記憶)を16,384トークンに設定します。設定しない場合、Llama.cpp はデフォルトで4,096トークンを使用します。これによりメモリ要件は最小限に抑えられますが、このしきい値を超えるとモデルは詳細を忘れ始めます。メモリに余裕がある場合は、メモリ不足エラーが発生しない範囲で、モデルの上限まで、この値をできるだけ高く設定することをお勧めします。gpt-oss の場合、131,072トークンです。

コンテキストウィンドウが大きいほど、モデルの実行に必要なRAMまたはVRAMの量が増えます。LMCacheには、メモリに収まるトークンの数を計算するツールが用意されています。

-np 2— Llama.cpp は最大 2 つのリクエストを同時に処理できます。これは、マルチユーザー環境や、Llama.cpp を Cline や Continue などのコードアシスタントツールに接続する場合に便利です。これらのツールは、コードコンテストやチャット機能のために複数のリクエストを同時に送信する可能性があります。コンテキストウィンドウは並列プロセスの数で分割されることに注意してください。この例では、各並列プロセスは 8192 トークンのコンテキストを持ちます。

--cache-reuse 256— これを設定すると、キーと値のキャッシュの再計算を回避し、特に長時間にわたる複数ターンの会話においてプロンプト処理を高速化できます。256トークンチャンクから始めることをお勧めします。

ハイパーパラメータの調整

最適なパフォーマンスと出力品質を得るために、多くのモデル ビルダーは、温度や min-p などのサンプリング パラメーターを特定の値に設定することを推奨しています。

例えば、AlibabaのQwenチームは、Qwen3-30B-A3B-Instruct-2507のような多くのInstructモデルを実行する際に、tempを0.7、top-pを0.8、top-kを20、min-pを0に設定することを推奨しています。推奨ハイパーパラメータは通常、Hugging Faceなどのリポジトリのモデルカードに記載されています。

簡単に言えば、これらのパラメータは、モデルが確率曲線からどのトークンを選択するかに影響を与えます。温度は最も理解しやすいパラメータの一つで、低く設定すると創造性が低く、より決定論的な出力になり、高く設定するとより冒険的な結果になります。

Open WebUI、LibreChat、Jan などの多くのアプリケーションでは、API 経由でこれらの設定をオーバーライドできます。llama-server を実行している場合は、localhost:8080 でアクセスできます。ただし、API 経由でオーバーライドできないアプリケーションの場合は、Llama.cpp でモデルを起動する際にこれらの設定を行うと便利です。

たとえば、Qwen 3 命令モデルの場合、次のようなものを実行します。(この特定のモデルは 20 GB を超えるメモリを必要とするため、テストする場合は、Qwen をより小さなモデルに交換する必要がある場合があります。)

./llama-server -hfr bartowski/Qwen_Qwen3-30B-A3B-Instruct-2507-GGUF:Q4_K_M --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.0

利用可能なサンプリング パラメータの完全なリストは、次のコマンドを実行すると見つかります。

./llama-cli --help

サンプリングパラメータが出力生成にどのように影響するかの詳細については、Amazon Web Services の説明をこちらでご覧ください。

投機的デコードによるパフォーマンスの向上

Llama.cpp の機能の一つに、Ollama のような他のモデルランナーには見られない、投機的デコードのサポートがあります。このプロセスは、小さなドラフトモデルを用いてより大規模で正確なモデルの出力を予測することで、コード生成のような反復性の高いワークロードにおけるトークン生成を高速化します。

このアプローチでは、互換性のあるドラフトモデル(通常はメインのモデルと同じファミリーのもの)が必要です。この例では、0.6Bバリアントをドラフトモデルとして使用し、投機的デコードによってAlibabaのQwen3-14Bモデルを高速化します。

./llama-server -hfr Qwen/Qwen3-14B-GGUF:Q4_K_M -hfrd Qwen/Qwen3-0.6B-GGUF:Q8_0 -c 4096 -cd 4096 -ngl 99 -ngld 99 --draft-max 32 --draft-min 2 --cache-reuse 256 -fa

テストとして、モデルにテキストブロックまたはコードブロックを生成させることができます。投機的デコードを有効にしたテストでは、生成速度はQwen3-14B単体で実行した場合とほぼ同等でした。しかし、テキストまたはコードに小さな変更を加えるように要求すると、パフォーマンスは約60 tok/sから117 tok/sへと約2倍に向上しました。

Llama.cpp での投機的デコードがどのように機能するかについて詳しく知りたい場合は、ここで詳細をご覧ください。

大きなモデルをCPUとGPUに分割する

Llama.cpp の最も貴重な機能の一つは、大規模なモデルを CPU と GPU に分割できることです。DRAM と VRAM の間でモデルの重み(および OS)に十分なメモリがあれば、Llama.cpp を実行できる可能性は十分にあります。

-ngl前にも触れたように、これを行う最も簡単な方法は、メモリ不足エラーが発生するまでGPU にオフロードされるレイヤーの数 ( ) を徐々に増やし、その後少しずつ減らしていくことです。

たとえば、20 GB の vRAM と 32 GB の DDR5 を搭載した GPU があり、42 GB 強のメモリを必要とする 4 ビット精度で Meta の Llama 3.1 70B モデルを実行したい場合、40 レイヤーを GPU にオフロードし、残りを CPU で実行することになります。

./llama-server -hfr bartowski/Meta-Llama-3.1-70B-Instruct-GGUF -ngl 40

モデルの実行中、パフォーマンスはそれほど良くありません。私たちのテストでは、約 2 tok/s でした。

ただし、gpt-oss などのエキスパート混合 (MoE) モデルではアクティブなパラメーターの数が比較的少ないため、はるかに大規模なモデルを実行する場合でも、実際には適切なパフォーマンスを得ることができます。

Llama.cpp の MoE エキスパート オフロード機能を利用することで、20GB GPU と 64GB の DDR4 3200 MT/s メモリを搭載したシステムで、OpenAI の 1200 億パラメータの gpt-oss モデルを 20 tok/s というかなり優れた速度で実行できるようになりました。

./llama-server -hf ggml-org/gpt-oss-120b-GGU -fa -c 32768 --jinja -ngl 999 --n-cpu-moe 26

この場合、 を設定し-ngl999パラメータを使用して--n-cpu-moe、Llama.cpp がメモリ不足エラーをスローしなくなるまで、より多くのエキスパート レイヤーを CPU に徐々にオフロードしました。

ツール呼び出し

ワークロードで必要な場合、Llama.cpp は Open WebUI や Cline などの OpenAI 互換 API エンドポイントからのツール呼び出しも解析できます。時計や電卓などの外部機能を利用したり、Proxmox クラスタのステータスを確認したりするには、ツールが必要になります。

以前、Proxmox VE からステータス レポートを生成するツールを構築しました。

以前、Proxmox VE からステータス レポートを生成するツールを構築しました。

ツール呼び出しの有効化方法はモデルによって異なります。gpt-ossを含むほとんどの一般的なモデルでは、特別な設定は必要ありません。--jinjaフラグを追加するだけですぐに使用できます。

./llama-server -hf ggml-org/gpt-oss-20b-GGUF --jinja

DeepSeek R1などの他のモデルでは、モデルの起動時にチャットテンプレートを手動で設定する必要がある場合があります。例:

./llama-server --jinja -fa -hf bartowski/DeepSeek-R1-Distill-Qwen-32B-GGUF:Q4_K_M \ --chat-template-file models/templates/llama-cpp-deepseek-r1.jinja

ツールの呼び出しはそれ自体が厄介な問題なので、詳細を知りたい場合は、こちらとこちらで関数呼び出しとモデル コンテキスト プロトコルの詳細を確認してください。

まとめ

Llama.cppは、最も包括的なモデルランナーの一つと言えるかもしれません(ここではアプリの機能のほんの一部しか説明していません)。しかし、初めてローカルLLMに足を踏み入れる人にとっては、かなり敷居が高いと感じるかもしれません。これが、このアプリのハンズオンに時間がかかった理由の一つであり、OllamaやLM Studioのようなよりシンプルなアプリにも依然として価値があると考える理由でもあります。

Llama.cpp について理解が深まったところで、LLM が実際にどのように本番環境に導入されるのか、あるいは画像生成をどのように始めるのか疑問に思われるかもしれません。それぞれのガイドをご用意しています。®

Discover More