Ollama

Name: asiai
Author: Jean-Marc Nahlovsky

Ollama 是 Mac 上最流行的 LLM 推理引擎，基于 llama.cpp 后端，使用 GGUF 格式模型，默认端口为 11434。在我们的 M4 Pro 64GB benchmark 测试中，它在 Qwen3-Coder-30B 上达到 70 tok/s，但吞吐量比 LM Studio (MLX) 慢 46%。

Ollama 是最受欢迎的本地 LLM 运行工具。asiai 使用其原生 API。

安装

brew install ollama
ollama serve
ollama pull gemma2:9b

详情

属性	值
默认端口	11434
API 类型	原生（非 OpenAI）
VRAM 报告	是
模型格式	GGUF
加载时间测量	是（通过 `/api/generate` 冷启动）

说明

Ollama 可报告每个模型的 VRAM 使用量，asiai 在 benchmark 和监控输出中显示该信息。
模型名称使用 name:tag 格式（例如 gemma2:9b、qwen3.5:35b-a3b）。
asiai 发送 temperature: 0 以获得确定性的 benchmark 结果。

另请参阅

查看 Ollama 的对比：Ollama vs LM Studio benchmark