哪个LLM？哪个引擎？
哪种组合在你的Mac上最强？让你的AI智能体
洞察推理状态

跑分来选择。仪表盘来监控。历史记录来发现问题。asiai的REST API让你的AI智能体自主监控、诊断和优化本地LLM基础设施。

🧑 人类 AI智能体 🤖

开始排行榜在GitHub上查看智能体指南 API参考把这个URL给你的AI

Python 3.11+ Apache 2.0 Apple Silicon Agent-Ready

asiai bench

asiai web

GET /api/status ≤ 500ms

{
  "chip": "Apple M4 Pro",
  "ram_gb": 64.0,
  "memory_pressure": "normal",
  "gpu_utilization_percent": 45.2,
  "engines": {
    "ollama": { "running": true, "models_loaded": 2 },
    "lmstudio": { "running": true, "models_loaded": 1 }
  }
}

GET /api/snapshot Full state

{
  "system": {
    "chip": "Apple M4 Pro",
    "gpu_cores": 20,
    "gpu_utilization_percent": 45.2,
    "gpu_renderer_percent": 38.1,
    "thermal_state": "nominal"
  },
  "engines": [{
    "name": "ollama",
    "models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
  }]
}

本地LLM的问题

听起来熟悉吗？

🧩

碎片化

Ollama、LM Studio、mlx-lm — 各有各的CLI、格式和指标。毫无统一标准。

🙈

盲目

没有实时VRAM监控，没有功耗追踪，没有温度告警。完全在盲飞。

📋

手动

跑分意味着curl脚本、复制粘贴数字、用电子表格比较。

为Apple Silicon高级用户打造

跑分、监控、优化本地推理所需的一切。

⚔️

一对一跑分对决

同一模型在Ollama vs LM Studio vs mlx-lm上对比。一条命令，真实数据。

⚡

能效测量

测量推理时的GPU功耗。了解你的tok/s每瓦特 — 没有其他工具能做到。

🔧

7个引擎，一个CLI

Ollama、LM Studio、mlx-lm、llama.cpp、oMLX、vllm-mlx、Exo。自动检测，自动配置。

📦

零依赖

仅用Python标准库。无需requests、psutil、rich。秒级安装。

🔍

GPU可观测性

实时GPU利用率、渲染器、Tiler和内存 — 通过被动IOReport。实时仪表、迷你图、历史图表。以前所未有的方式观察Apple Silicon GPU。

📉

回归检测

OS或引擎更新后自动检测性能下降。SQLite历史记录，保留90天。

🌐

REST API

完整JSON API用于自动化。/api/snapshot、/api/status、/api/metrics — 集成任何技术栈。

📈

原生Prometheus支持

内置/metrics端点。连接Grafana、Datadog或任何兼容Prometheus的工具。零配置。

🔔

告警Webhook

内存压力、温度降频或引擎宕机时POST到Slack、Discord或任意URL。基于状态转换 — 不刷屏。

🏆

社区排行榜

匿名分享基准测试。将你的Mac与社区比较。查看其他人在相同芯片上的表现。

💡

智能推荐

"在你的M4 Pro 64GB上，写代码用：Qwen3.5-35B + mlx-lm，71 tok/s。" 用数据回答r/LocalLLaMA的第一大问题。

🌐

分布式推理

基准测试Exo集群。2台Mac Mini = Llama 3.3 70B。asiai像测量单台机器一样测量集群。

🎴

跑分卡片

一条命令，一张可分享图片。运行asiai bench --card，获得1200x630深色主题卡片，含模型、芯片、引擎对比和赢家。发到Reddit、X或Discord。本地LLM的Speedtest。

🤖

智能体就绪API

为人类而建。为AI智能体而备。REST API提供JSON端点、Prometheus指标、诊断决策树和推理活动信号。给你的AI智能体一个URL，让它自我监控。

你会发现什么？

来自r/LocalLLaMA的真实问题，一条命令解答。

🏆

"哪个引擎最快？"

一对一对比 — r/LocalLLaMA上的头号问题。

🤖

"监控多智能体集群"

LLM全天候运行AI智能体 — 追踪VRAM、温度和性能。

🔋

"对比能效"

不同引擎间的tok/s每瓦特。对7x24小时Mac Mini家庭实验室至关重要。

🚨

"更新后检测回归"

Ollama或macOS更新导致性能下降？通过SQLite自动检测。

📏

"测试长上下文支持"

--context-size 64k跑分。你的模型能扛住256k上下文吗？

🔥

"我的Mac是否在温度降频？"

跨跑分轮次的漂移检测。asiai独有功能。

📊

"可复现的跑分"

MLPerf/SPEC方法论。预热、中位数、greedy解码。放心分享。

🩺

"一条命令健康检查"

asiai doctor诊断系统、引擎和数据库，并提供修复建议。

💻

"可视化仪表盘"

深色/浅色Web仪表盘，实时图表、SSE进度、跑分控制。

🔄

"LLM一对一比较"

同一引擎，不同模型。哪种量化方案胜出？

📡

"Prometheus + Grafana监控"

暴露/metrics，用Prometheus抓取，在Grafana中可视化。生产级可观测性。

🧠

"追踪AI智能体推理"

GPU活动、TCP连接、KV缓存 — 了解你的智能体何时在推理、空闲或过载。API可直接对接集群编排器。

60秒启动运行

三条命令，搞定。

安装

brew install asiai

检测

$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 发现3个引擎

跑分

$ asiai bench -m qwen3.5
Engine     tok/s  TTFT
lmstudio   71.2   42ms
ollama     54.8   61ms
mlx-lm     30.1   38ms

真实发现

Apple Silicon上真实跑分的数据。

2.3x

MLX vs llama.cpp

在Apple Silicon上，MLX对MoE架构（Qwen3.5-35B-A3B）快2.3倍。

Flat

VRAM: 64k → 256k

使用DeltaNet时，VRAM从64k到256k上下文保持不变 — 其他地方从未记录。

30 vs 71

引擎 > 模型

同一模型，同一Mac：一个引擎30 tok/s，另一个71 tok/s。引擎比模型更重要。

支持的引擎

自动检测，无需配置。

Engine	默认端口	API	格式	VRAM
Ollama	`11434`	原生	GGUF	✔
LM Studio	`1234`	兼容OpenAI	GGUF + MLX	✔
mlx-lm	`8080`	兼容OpenAI	MLX	—
llama.cpp	`8080`	兼容OpenAI	GGUF	—
oMLX	`8000`	兼容OpenAI	MLX	—
vllm-mlx	`8000`	兼容OpenAI	MLX	—
Exo	`52415`	兼容OpenAI	MLX	—

我们测量什么

8项指标，一致的方法论，每次运行。

🚀

tok/s

生成速度 (tokens/sec)

⏱️

TTFT

首token延迟

⚡

Power (W)

GPU功耗（瓦特）

🔋

tok/s/W

能效

📈

Stability

跨轮次方差

💾

VRAM

GPU显存占用

🌡️

Thermal

降频状态

📏

Context

长上下文性能伸缩

开始使用

秒级安装。零依赖。

Homebrew

brew tap druide67/tap
brew install asiai

pip

pip install asiai

GitHub 文档方法论 Apache 2.0 ❤ Sponsor

⭐ 如果 asiai 帮助了你，一颗星能帮助更多人发现它

🌍 本页翻译由机器生成，可能不完全准确。欢迎通过 GitHub Issue 提交修正。

哪个LLM？哪个引擎？哪种组合在你的Mac上最强？让你的AI智能体洞察推理状态