跳转至

mlx-lm

mlx-lm 是 Apple 的 MLX 参考推理服务器,通过端口 8080 在 Metal GPU 上原生运行模型。对 Apple Silicon 上的 MoE(混合专家)模型特别高效,利用统一内存实现零拷贝模型加载。

mlx-lm 在 Apple MLX 上原生运行模型,提供高效的统一内存利用。

配置

brew install mlx-lm
mlx_lm.server --model mlx-community/gemma-2-9b-it-4bit

详情

属性
默认端口 8080
API 类型 OpenAI 兼容
VRAM 报告
模型格式 MLX(safetensors)
检测方式 /version 端点或 lsof 进程检测

说明

  • mlx-lm 与 llama.cpp 共用端口 8080。asiai 使用 API 探测和进程检测来区分两者。
  • 模型使用 HuggingFace/MLX 社区格式(如 mlx-community/gemma-2-9b-it-4bit)。
  • 原生 MLX 执行通常在 Apple Silicon 上提供出色性能。

另见

使用 asiai bench --engines mlxlm 比较引擎 --- 了解方法