跳转至

vllm-mlx

vLLM-MLX 将 vLLM 服务框架通过 MLX 引入 Apple Silicon,提供连续批处理和 OpenAI 兼容 API(端口 8000)。在优化模型上可达 400+ tok/s,是 Mac 上并发推理最快的选择之一。

vllm-mlx 通过 MLX 将连续批处理带到 Apple Silicon。

安装

pip install vllm-mlx
vllm serve mlx-community/gemma-2-9b-it-4bit

详情

属性
默认端口 8000
API 类型 OpenAI 兼容
VRAM 报告
模型格式 MLX (safetensors)
检测方式 /version 端点或 lsof 进程检测

说明

  • vllm-mlx 支持连续批处理,适合处理并发请求。
  • 在 Apple Silicon 上使用优化模型可达 400+ tok/s。
  • 使用标准 vLLM OpenAI 兼容 API。

另请参阅

使用 asiai bench --engines vllm-mlx 比较引擎 --- 了解方法