llama.cpp

Name: asiai
Author: Jean-Marc Nahlovsky

llama.cpp 是 GGUF 模型的基础 C++ 推理引擎，提供对 KV cache、线程数和上下文大小的最大底层控制，端口 8080。它是 Ollama 的后端，也可以独立运行用于 Apple Silicon 上的精细调优。

llama.cpp 是支持 GGUF 模型的高性能 C++ 推理引擎。

配置

brew install llama.cpp
llama-server -m model.gguf

使用 asiai bench --engines llamacpp 比较引擎 --- 了解方法