跳转至

LM Studio

LM Studio 是 Apple Silicon 上最快的 MLX 推理引擎,在端口 1234 上提供 OpenAI 兼容 API。在 M4 Pro 64GB 上,Qwen3-Coder-30B(MLX)达到 130 tok/s,对于 MoE 模型比 Ollama 的 llama.cpp 后端快近 2 倍。

LM Studio 提供 OpenAI 兼容 API 和图形化模型管理界面。

配置

brew install --cask lm-studio

从 LM Studio 应用启动本地服务器,然后加载模型。

详情

属性
默认端口 1234
API 类型 OpenAI 兼容
VRAM 报告 是(通过 lms ps --json CLI)
模型格式 GGUF、MLX
检测方式 /lms/version 端点或应用 bundle plist

VRAM 报告

自 v0.7.0 起,asiai 从 LM Studio CLI(~/.lmstudio/bin/lms ps --json)获取 VRAM 占用。这提供了 OpenAI 兼容 API 不暴露的准确模型大小数据。

如果 lms CLI 未安装或不可用,asiai 优雅降级为报告 VRAM 为 0(与 v0.7.0 之前行为相同)。

说明

  • LM Studio 支持 GGUF 和 MLX 模型格式。
  • 版本检测使用 /lms/version API 端点,降级时使用磁盘上的应用 bundle plist。
  • 模型名通常使用 HuggingFace 格式(如 gemma-2-9b-it)。

另见

查看 LM Studio 的表现:Ollama vs LM Studio 基准测试