常见问题

通用

什么是 asiai？

asiai 是一个开源 CLI 工具，用于在 Apple Silicon Mac 上对 LLM 推理引擎做基准测试和监控。支持 7 个引擎（Ollama、LM Studio、mlx-lm、llama.cpp、oMLX、vllm-mlx、Exo），测量 tok/s、TTFT、功耗和 VRAM 占用，零依赖。

asiai 能在 Intel Mac 或 Linux 上运行吗？

不能。asiai 需要 Apple Silicon（M1、M2、M3 或 M4）。它使用 macOS 特有 API（sysctl、vm_stat、ioreg、IOReport、launchd），这些仅在 Apple Silicon Mac 上可用。

asiai 需要 sudo 或 root 权限吗？

不需要。包括 GPU 监测（ioreg）和功耗监控（IOReport）在内的所有功能都无需 sudo。可选的 --power 参数用于与 powermetrics 交叉验证，是唯一使用 sudo 的功能。

引擎与性能

Apple Silicon 上最快的 LLM 推理引擎是什么？

在 M4 Pro 64GB 上用 Qwen3-Coder-30B（Q4_K_M）的基准测试中，LM Studio（MLX 后端）达到 102 tok/s，Ollama 为 70 tok/s——token 生成快 46%。LM Studio 能效也高 82%（8.23 vs 4.53 tok/s/W）。详见我们的详细对比。

Mac 上用 Ollama 还是 LM Studio 更好？

取决于你的使用场景：

LM Studio（MLX）：适合高吞吐量场景（代码生成、长文本回复）。更快、更高效、VRAM 占用更低。
Ollama（llama.cpp）：适合低延迟场景（聊天机器人、交互式使用）。TTFT 更快。更适合大上下文窗口（>32K token）。

本地运行 LLM 需要多少 RAM？

模型大小	量化	需要 RAM
7B	Q4_K_M	最低 8 GB
13B	Q4_K_M	最低 16 GB
30B	Q4_K_M	32-64 GB
35B MoE（3B 活跃）	Q4_K_M	16 GB（仅加载活跃参数）

基准测试

如何运行第一个基准测试？

三条命令：

pip install asiai     # 安装
asiai detect          # 发现引擎
asiai bench           # 运行基准测试

基准测试需要多长时间？

快速基准测试（asiai bench --quick）约 2 分钟。完整的多引擎多提示词 3 次运行比较需要 10-15 分钟。

功耗测量有多准确？

IOReport 功耗读数与 sudo powermetrics 相比差异不到 1.5%，在 LM Studio（MLX）和 Ollama（llama.cpp）上均通过 20 个样本验证。

能和其他 Mac 用户比较结果吗？

可以。运行 asiai bench --share 匿名提交结果到社区排行榜。使用 asiai compare 查看你的 Mac 如何。

AI Agent 集成

AI Agent 能使用 asiai 吗？

可以。asiai 包含 11 个工具和 3 个资源的 MCP 服务器。用 pip install "asiai[mcp]" 安装，在 MCP 客户端（Claude Code、Cursor、Windsurf）中配置 asiai mcp。详见 Agent 集成指南。

有哪些 MCP 工具？

11 个工具：check_inference_health、get_inference_snapshot、list_models、detect_engines、run_benchmark、get_recommendations、diagnose、get_metrics_history、get_benchmark_history、refresh_engines、compare_engines。

3 个资源：asiai://status、asiai://models、asiai://system。