vllm-mlx

Name: asiai
Author: Jean-Marc Nahlovsky

vLLM-MLX trae el framework de serving vLLM a Apple Silicon vía MLX, ofreciendo batching continuo y una API compatible con OpenAI en el puerto 8000. Puede alcanzar 400+ tok/s en modelos optimizados, convirtiéndolo en una de las opciones más rápidas para inferencia concurrente en Mac.

vllm-mlx trae batching continuo a Apple Silicon vía MLX.

Instalación

pip install vllm-mlx
vllm serve mlx-community/gemma-2-9b-it-4bit

Detalles

Propiedad	Valor
Puerto por defecto	8000
Tipo de API	Compatible con OpenAI
Reporte de VRAM	No
Formato de modelo	MLX (safetensors)
Detección	Endpoint `/version` o detección de procesos `lsof`

Notas

vllm-mlx soporta batching continuo, haciéndolo adecuado para el manejo de solicitudes concurrentes.
Puede alcanzar 400+ tok/s en Apple Silicon con modelos optimizados.
Usa la API estándar compatible con OpenAI de vLLM.

Ver también

Compara motores con asiai bench --engines vllm-mlx --- aprende cómo