跳转至

快速入门

Apple Silicon AI — 多引擎 LLM 基准测试与监控 CLI 工具。

asiai 可以在你的 Mac 上对推理引擎进行并排比较。将同一个模型加载到 Ollama 和 LM Studio,运行 asiai bench,即可获得数据。不靠猜测,不靠感觉——只有 tok/s、TTFT、能效和稳定性等硬指标。

快速开始

pipx install asiai        # 推荐:隔离安装

或通过 Homebrew:

brew tap druide67/tap
brew install asiai

其他方式:

uvx asiai detect           # 免安装运行(需要 uv)
pip install asiai           # 标准 pip 安装

首次启动

asiai setup                # 交互式向导——检测硬件、引擎、模型
asiai detect               # 或直接跳到引擎检测

然后运行基准测试:

asiai bench -m qwen3.5 --runs 3 --power

示例输出:

  Mac Mini M4 Pro — Apple M4 Pro  RAM: 64.0 GB (42% used)  Pressure: normal

Benchmark: qwen3.5

  Engine       tok/s (±stddev)    Tokens   Duration     TTFT       VRAM    Thermal
  ────────── ───────────────── ───────── ────────── ──────── ────────── ──────────
  lmstudio    72.6 ± 0.0 (stable)   435    6.20s    0.28s        —    nominal
  ollama      30.4 ± 0.1 (stable)   448   15.28s    0.25s   26.0 GB   nominal

  Winner: lmstudio (2.4x faster)
  Power: lmstudio 13.2W (5.52 tok/s/W) — ollama 16.0W (1.89 tok/s/W)

测量指标

指标 说明
tok/s 生成速度(token/秒),不含 prompt 处理时间
TTFT 首 token 延迟——prompt 处理耗时
Power GPU 功耗(瓦特)(sudo powermetrics
tok/s/W 能效——每瓦每秒生成的 token 数
Stability 运行间方差:稳定(<5%)、波动(<10%)、不稳定(>10%)
VRAM 内存占用——原生报告(Ollama、LM Studio)或通过 ri_phys_footprint 估算(所有引擎)
Thermal CPU 温控状态和速度限制百分比

支持的引擎

引擎 端口 API
Ollama 11434 原生
LM Studio 1234 OpenAI 兼容
mlx-lm 8080 OpenAI 兼容
llama.cpp 8080 OpenAI 兼容
oMLX 8000 OpenAI 兼容
vllm-mlx 8000 OpenAI 兼容
Exo 52415 OpenAI 兼容

自定义端口

如果你的引擎运行在非标准端口上,asiai 通常会通过进程检测自动找到它。你也可以手动注册:

asiai config add omlx http://localhost:8800 --label mac-mini

手动添加的引擎会被持久化保存,不会被自动清理。详见 config

系统要求

  • macOS + Apple Silicon(M1 / M2 / M3 / M4)
  • Python 3.11+
  • 至少一个本地运行的推理引擎

零依赖

核心仅使用 Python 标准库——urllibsqlite3subprocessargparse。无 requests,无 psutil,无 rich

可选扩展:

  • asiai[web] — FastAPI Web 仪表板(含图表)
  • asiai[tui] — Textual 终端仪表板
  • asiai[mcp] — AI Agent MCP 服务器
  • asiai[all] — Web + TUI + MCP
  • asiai[dev] — pytest、ruff、pytest-cov