LM Studio
LM Studio 是 Apple Silicon 上最快的 MLX 推理引擎,在端口 1234 上提供 OpenAI 兼容 API。在 M4 Pro 64GB 上,Qwen3-Coder-30B(MLX)达到 130 tok/s,对于 MoE 模型比 Ollama 的 llama.cpp 后端快近 2 倍。
LM Studio 提供 OpenAI 兼容 API 和图形化模型管理界面。
配置
brew install --cask lm-studio
从 LM Studio 应用启动本地服务器,然后加载模型。
详情
| 属性 | 值 |
|---|---|
| 默认端口 | 1234 |
| API 类型 | OpenAI 兼容 |
| VRAM 报告 | 是(通过 lms ps --json CLI) |
| 模型格式 | GGUF、MLX |
| 检测方式 | /lms/version 端点或应用 bundle plist |
VRAM 报告
自 v0.7.0 起,asiai 从 LM Studio CLI(~/.lmstudio/bin/lms ps --json)获取 VRAM 占用。这提供了 OpenAI 兼容 API 不暴露的准确模型大小数据。
如果 lms CLI 未安装或不可用,asiai 优雅降级为报告 VRAM 为 0(与 v0.7.0 之前行为相同)。
说明
- LM Studio 支持 GGUF 和 MLX 模型格式。
- 版本检测使用
/lms/versionAPI 端点,降级时使用磁盘上的应用 bundle plist。 - 模型名通常使用 HuggingFace 格式(如
gemma-2-9b-it)。
另见
查看 LM Studio 的表现:Ollama vs LM Studio 基准测试