vllm-mlx

Name: asiai
Author: Jean-Marc Nahlovsky

vLLM-MLX 将 vLLM 服务框架通过 MLX 引入 Apple Silicon，提供连续批处理和 OpenAI 兼容 API（端口 8000）。在优化模型上可达 400+ tok/s，是 Mac 上并发推理最快的选择之一。

vllm-mlx 通过 MLX 将连续批处理带到 Apple Silicon。

安装

pip install vllm-mlx
vllm serve mlx-community/gemma-2-9b-it-4bit

使用 asiai bench --engines vllm-mlx 比较引擎 --- 了解方法