基准测试最佳实践

版本: 0.3.2 状态: 持续更新文档——随方法论演进而更新参考: MLPerf Inference、SPEC CPU 2017、NVIDIA GenAI-Perf

概述

asiai bench 遵循既定的基准测试标准，在 Apple Silicon 推理引擎间产出可靠、可重现、可比较的结果。本文档追踪哪些最佳实践已实现、计划中或有意排除。

实践	描述	标准
引擎间冷却	引擎间暂停 3-5 秒让温度稳定。	GPU 基准测试
Token 比率验证	当 tokens_generated < 90% max_tokens 时告警。	MLPerf
导出格式	`asiai bench --export` JSON 用于社区提交。	MLPerf 提交

实践	偏差原因
MLPerf 最少 600s 时长	设计用于数据中心 GPU。Apple Silicon 上 3 次运行 + 4 个提示词已需 2-5 分钟。结果已足够稳定。
SPEC 2 次非计时预热工作负载	我们使用 1 次预热生成（非 2 个完整工作负载）。单次预热对 JIT 预热最小的本地推理引擎已足够。
总体标准差 vs 样本标准差	我们使用总体标准差（N 除数）而非样本标准差（N-1 除数）。小 N（3-5 次运行）时差异很小，总体方式更保守。
频率缩放控制	Apple Silicon 不暴露 CPU governor 控制。我们记录 thermal_speed_limit 来检测降频。

Apple Silicon 在 CPU 和 GPU 间共享内存。两个关键影响：

永远不要同时对两个引擎做基准测试 — 它们竞争同一个内存池。asiai bench 设计为顺序运行引擎。
VRAM 报告 — Ollama 和 LM Studio 原生报告 size_vram。其他引擎（llama.cpp、mlx-lm、oMLX、vLLM-MLX、Exo），asiai 通过 ri_phys_footprint（libproc 的 macOS 物理占用指标，与活动监视器显示相同）作为后备估算。估算值在 UI 中标记为"(est.)"。

asiai bench 按结果记录 thermal_speed_limit，在任何运行期间检测到降频（speed_limit < 100%）时发出告警。

大上下文（32k+）可能在模型加载时预分配 KV cache 的引擎上导致性能不稳定。例如：LM Studio 默认 loaded_context_length: 262144（256k），对 35B 模型分配约 15-25 GB KV cache，可能使 64 GB 统一内存饱和。

建议： - 测试大上下文时，将引擎上下文长度设为实际测试大小（如 64k 测试用 lms load model --context-length 65536）。 - 使用等效上下文长度设置比较引擎以获得公平结果。

SQLite 中每个基准测试结果包含：

这些元数据支持： - 公平回归比较：仅比较元数据匹配的结果 - 跨机器基准测试：识别硬件差异 - 社区数据共享：自描述结果（v1.x 计划）