vllm-mlx
vLLM-MLX traz o framework de serving vLLM para Apple Silicon via MLX, oferecendo batching contínuo e API compatível com OpenAI na porta 8000. Pode atingir 400+ tok/s em modelos otimizados, tornando-o uma das opções mais rápidas para inferência concorrente no Mac.
vllm-mlx traz batching contínuo para Apple Silicon via MLX.
Configuração
pip install vllm-mlx
vllm serve mlx-community/gemma-2-9b-it-4bit
Detalhes
| Propriedade | Valor |
|---|---|
| Porta padrão | 8000 |
| Tipo de API | Compatível com OpenAI |
| Reporte de VRAM | Não |
| Formato de modelo | MLX (safetensors) |
| Detecção | Endpoint /version ou detecção de processo via lsof |
Notas
- vllm-mlx suporta batching contínuo, tornando-o adequado para lidar com requisições concorrentes.
- Pode atingir 400+ tok/s no Apple Silicon com modelos otimizados.
- Usa a API padrão compatível com OpenAI do vLLM.
Veja também
Compare motores com asiai bench --engines vllm-mlx --- saiba como