vllm-mlx

Name: asiai
Author: Jean-Marc Nahlovsky

vLLM-MLX traz o framework de serving vLLM para Apple Silicon via MLX, oferecendo batching contínuo e API compatível com OpenAI na porta 8000. Pode atingir 400+ tok/s em modelos otimizados, tornando-o uma das opções mais rápidas para inferência concorrente no Mac.

vllm-mlx traz batching contínuo para Apple Silicon via MLX.

Configuração

pip install vllm-mlx
vllm serve mlx-community/gemma-2-9b-it-4bit

Detalhes

Propriedade	Valor
Porta padrão	8000
Tipo de API	Compatível com OpenAI
Reporte de VRAM	Não
Formato de modelo	MLX (safetensors)
Detecção	Endpoint `/version` ou detecção de processo via `lsof`

Notas

vllm-mlx suporta batching contínuo, tornando-o adequado para lidar com requisições concorrentes.
Pode atingir 400+ tok/s no Apple Silicon com modelos otimizados.
Usa a API padrão compatível com OpenAI do vLLM.

Veja também

Compare motores com asiai bench --engines vllm-mlx --- saiba como