常见问题
通用
什么是 asiai?
asiai 是一个开源 CLI 工具,用于在 Apple Silicon Mac 上对 LLM 推理引擎做基准测试和监控。支持 7 个引擎(Ollama、LM Studio、mlx-lm、llama.cpp、oMLX、vllm-mlx、Exo),测量 tok/s、TTFT、功耗和 VRAM 占用,零依赖。
asiai 能在 Intel Mac 或 Linux 上运行吗?
不能。asiai 需要 Apple Silicon(M1、M2、M3 或 M4)。它使用 macOS 特有 API(sysctl、vm_stat、ioreg、IOReport、launchd),这些仅在 Apple Silicon Mac 上可用。
asiai 需要 sudo 或 root 权限吗?
不需要。包括 GPU 监测(ioreg)和功耗监控(IOReport)在内的所有功能都无需 sudo。可选的 --power 参数用于与 powermetrics 交叉验证,是唯一使用 sudo 的功能。
引擎与性能
Apple Silicon 上最快的 LLM 推理引擎是什么?
在 M4 Pro 64GB 上用 Qwen3-Coder-30B(Q4_K_M)的基准测试中,LM Studio(MLX 后端)达到 102 tok/s,Ollama 为 70 tok/s——token 生成快 46%。LM Studio 能效也高 82%(8.23 vs 4.53 tok/s/W)。详见我们的详细对比。
Mac 上用 Ollama 还是 LM Studio 更好?
取决于你的使用场景:
- LM Studio(MLX):适合高吞吐量场景(代码生成、长文本回复)。更快、更高效、VRAM 占用更低。
- Ollama(llama.cpp):适合低延迟场景(聊天机器人、交互式使用)。TTFT 更快。更适合大上下文窗口(>32K token)。
本地运行 LLM 需要多少 RAM?
| 模型大小 | 量化 | 需要 RAM |
|---|---|---|
| 7B | Q4_K_M | 最低 8 GB |
| 13B | Q4_K_M | 最低 16 GB |
| 30B | Q4_K_M | 32-64 GB |
| 35B MoE(3B 活跃) | Q4_K_M | 16 GB(仅加载活跃参数) |
基准测试
如何运行第一个基准测试?
三条命令:
pip install asiai # 安装
asiai detect # 发现引擎
asiai bench # 运行基准测试
基准测试需要多长时间?
快速基准测试(asiai bench --quick)约 2 分钟。完整的多引擎多提示词 3 次运行比较需要 10-15 分钟。
功耗测量有多准确?
IOReport 功耗读数与 sudo powermetrics 相比差异不到 1.5%,在 LM Studio(MLX)和 Ollama(llama.cpp)上均通过 20 个样本验证。
能和其他 Mac 用户比较结果吗?
可以。运行 asiai bench --share 匿名提交结果到社区排行榜。使用 asiai compare 查看你的 Mac 如何。
AI Agent 集成
AI Agent 能使用 asiai 吗?
可以。asiai 包含 11 个工具和 3 个资源的 MCP 服务器。用 pip install "asiai[mcp]" 安装,在 MCP 客户端(Claude Code、Cursor、Windsurf)中配置 asiai mcp。详见 Agent 集成指南。
有哪些 MCP 工具?
11 个工具:check_inference_health、get_inference_snapshot、list_models、detect_engines、run_benchmark、get_recommendations、diagnose、get_metrics_history、get_benchmark_history、refresh_engines、compare_engines。
3 个资源:asiai://status、asiai://models、asiai://system。