跳转至

常见问题

通用

什么是 asiai?

asiai 是一个开源 CLI 工具,用于在 Apple Silicon Mac 上对 LLM 推理引擎做基准测试和监控。支持 7 个引擎(Ollama、LM Studio、mlx-lm、llama.cpp、oMLX、vllm-mlx、Exo),测量 tok/s、TTFT、功耗和 VRAM 占用,零依赖。

asiai 能在 Intel Mac 或 Linux 上运行吗?

不能。asiai 需要 Apple Silicon(M1、M2、M3 或 M4)。它使用 macOS 特有 API(sysctlvm_statioregIOReportlaunchd),这些仅在 Apple Silicon Mac 上可用。

asiai 需要 sudo 或 root 权限吗?

不需要。包括 GPU 监测(ioreg)和功耗监控(IOReport)在内的所有功能都无需 sudo。可选的 --power 参数用于与 powermetrics 交叉验证,是唯一使用 sudo 的功能。

引擎与性能

Apple Silicon 上最快的 LLM 推理引擎是什么?

在 M4 Pro 64GB 上用 Qwen3-Coder-30B(Q4_K_M)的基准测试中,LM Studio(MLX 后端)达到 102 tok/s,Ollama 为 70 tok/s——token 生成快 46%。LM Studio 能效也高 82%(8.23 vs 4.53 tok/s/W)。详见我们的详细对比

Mac 上用 Ollama 还是 LM Studio 更好?

取决于你的使用场景:

  • LM Studio(MLX):适合高吞吐量场景(代码生成、长文本回复)。更快、更高效、VRAM 占用更低。
  • Ollama(llama.cpp):适合低延迟场景(聊天机器人、交互式使用)。TTFT 更快。更适合大上下文窗口(>32K token)。

本地运行 LLM 需要多少 RAM?

模型大小 量化 需要 RAM
7B Q4_K_M 最低 8 GB
13B Q4_K_M 最低 16 GB
30B Q4_K_M 32-64 GB
35B MoE(3B 活跃) Q4_K_M 16 GB(仅加载活跃参数)

基准测试

如何运行第一个基准测试?

三条命令:

pip install asiai     # 安装
asiai detect          # 发现引擎
asiai bench           # 运行基准测试

基准测试需要多长时间?

快速基准测试(asiai bench --quick)约 2 分钟。完整的多引擎多提示词 3 次运行比较需要 10-15 分钟。

功耗测量有多准确?

IOReport 功耗读数与 sudo powermetrics 相比差异不到 1.5%,在 LM Studio(MLX)和 Ollama(llama.cpp)上均通过 20 个样本验证。

能和其他 Mac 用户比较结果吗?

可以。运行 asiai bench --share 匿名提交结果到社区排行榜。使用 asiai compare 查看你的 Mac 如何。

AI Agent 集成

AI Agent 能使用 asiai 吗?

可以。asiai 包含 11 个工具和 3 个资源的 MCP 服务器。用 pip install "asiai[mcp]" 安装,在 MCP 客户端(Claude Code、Cursor、Windsurf)中配置 asiai mcp。详见 Agent 集成指南

有哪些 MCP 工具?

11 个工具:check_inference_healthget_inference_snapshotlist_modelsdetect_enginesrun_benchmarkget_recommendationsdiagnoseget_metrics_historyget_benchmark_historyrefresh_enginescompare_engines

3 个资源:asiai://statusasiai://modelsasiai://system