如何在 Mac 上对 LLM 做基准测试
在 Mac 上运行本地 LLM?下面介绍如何测量真实性能——不是感觉,不是"好像很快",而是实际的 tok/s、TTFT、功耗和内存占用。
为什么要做基准测试?
同一个模型在不同推理引擎上的运行速度差异很大。在 Apple Silicon 上,MLX 引擎(LM Studio、mlx-lm、oMLX)可以比 llama.cpp 引擎(Ollama)快 2 倍。不测量的话,你就在白白浪费性能。
快速开始(2 分钟)
1. 安装 asiai
pip install asiai
或通过 Homebrew:
brew tap druide67/tap
brew install asiai
2. 检测引擎
asiai detect
asiai 自动发现 Mac 上运行的引擎(Ollama、LM Studio、llama.cpp、mlx-lm、oMLX、vLLM-MLX、Exo)。
3. 运行基准测试
asiai bench
就这样。asiai 自动检测引擎上的最佳模型并进行跨引擎比较。
测量内容
| 指标 | 含义 |
|---|---|
| tok/s | 每秒生成的 token 数(仅生成阶段,不含 prompt 处理) |
| TTFT | 首 token 延迟——生成开始前的等待时间 |
| Power | 推理过程中的 GPU + CPU 功耗(通过 IOReport,无需 sudo) |
| tok/s/W | 能效——每瓦每秒生成的 token 数 |
| VRAM | 模型内存占用(原生 API 或通过 ri_phys_footprint 估算) |
| Stability | 运行间方差:稳定(CV<5%)、波动(<10%)、不稳定(>10%) |
| Thermal | Mac 在基准测试期间是否发生温控降频 |
示例输出
Mac16,11 — Apple M4 Pro RAM: 64.0 GB Pressure: normal
Benchmark: qwen3-coder-30b
Engine tok/s Tokens Duration TTFT VRAM Thermal
lmstudio 102.2 537 7.00s 0.29s 24.2 GB nominal
ollama 69.8 512 17.33s 0.18s 32.0 GB nominal
Winner: lmstudio (+46% tok/s)
Power Efficiency
lmstudio 102.2 tok/s @ 12.4W = 8.23 tok/s/W
ollama 69.8 tok/s @ 15.4W = 4.53 tok/s/W
M4 Pro 64GB 真实基准测试的示例输出。你的数据会因硬件和模型而异。查看更多结果 →
高级选项
指定引擎比较
asiai bench --engines ollama,lmstudio,omlx
多提示词和多次运行
asiai bench --prompts code,reasoning,tool_call --runs 3
大上下文基准测试
asiai bench --context-size 64K
生成可分享卡片
asiai bench --card --share
生成基准测试卡片图片并将结果分享到社区排行榜。
Apple Silicon 技巧
内存很重要
16GB Mac 上,建议使用加载后不超过 14GB 的模型。MoE 模型(Qwen3.5-35B-A3B,3B 活跃参数)是理想选择——以 7B 级内存占用提供 35B 级质量。
引擎选择比你想象的更重要
MLX 引擎在 Apple Silicon 上对大多数模型明显快于 llama.cpp。查看我们的 Ollama vs LM Studio 对比获取真实数据。
温控降频
MacBook Air(无风扇)在 5-10 分钟持续推理后会降频。Mac Mini/Studio/Pro 可以处理持续工作负载而不降频。asiai 会自动检测和报告温控降频。
与社区对比
看看你的 Mac 与其他 Apple Silicon 机器相比如何:
asiai compare
或访问在线排行榜。
常见问题
问:Apple Silicon 上最快的 LLM 推理引擎是什么? 答:在 M4 Pro 64GB 的基准测试中,LM Studio(MLX 后端)的 token 生成速度最快——比 Ollama(llama.cpp)快 46%。但 Ollama 有更低的 TTFT(首 token 延迟)。详见我们的详细对比。
问:在 Mac 上运行 30B 模型需要多少 RAM? 答:Q4_K_M 量化的 30B 模型使用 24-32 GB 统一内存(取决于引擎)。至少需要 32 GB RAM,理想情况下 64 GB 以避免内存压力。MoE 模型如 Qwen3.5-35B-A3B 仅使用约 7 GB 活跃参数。
问:asiai 在 Intel Mac 上能用吗? 答:不能。asiai 需要 Apple Silicon(M1/M2/M3/M4)。它使用 macOS 特有的 API 进行 GPU 指标采集、功耗监控和硬件检测,这些仅在 Apple Silicon 上可用。
问:M4 上 Ollama 和 LM Studio 哪个更快? 答:LM Studio 吞吐量更高(Qwen3-Coder-30B 上 102 tok/s vs 70 tok/s)。Ollama 首 token 延迟更低(0.18s vs 0.29s),且在大上下文窗口(>32K token)下 llama.cpp 预填充速度快达 3 倍。
问:基准测试需要多长时间?
答:快速基准测试约 2 分钟。完整的多引擎多提示词多次运行比较需要 10-15 分钟。使用 asiai bench --quick 进行快速单次测试。
问:能和其他 Mac 用户比较结果吗?
答:可以。运行 asiai bench --share 匿名提交结果到社区排行榜。使用 asiai compare 查看你的 Mac 与其他 Apple Silicon 机器的对比。