コンテンツにスキップ

llama.cpp

llama.cppはGGUFモデル用の基盤的なC++推論エンジンで、ポート8080でKVキャッシュ、スレッド数、コンテキストサイズの最大限の低レベル制御を提供します。Ollamaのバックエンドとして動作しますが、Apple Siliconでの細かいチューニングのためにスタンドアロンで実行することもできます。

llama.cppはGGUFモデルをサポートする高性能C++推論エンジンです。

セットアップ

brew install llama.cpp
llama-server -m model.gguf

詳細

プロパティ
デフォルトポート 8080
APIタイプ OpenAI互換
VRAMレポーティング なし
モデルフォーマット GGUF
検出 /health + /props エンドポイントまたは lsof プロセス検出

注意事項

  • llama.cppはmlx-lmとポート8080を共有しています。asiai は /health/props エンドポイントで検出します。
  • サーバーはチューニングのためにカスタムコンテキストサイズとスレッド数で起動できます。

関連項目

asiai bench --engines llamacpp でエンジンを比較 --- 詳しくはこちら