vllm-mlx

Name: asiai
Author: Jean-Marc Nahlovsky

vLLM-MLX porta il framework di serving vLLM su Apple Silicon via MLX, offrendo batching continuo e un'API compatibile con OpenAI sulla porta 8000. Può raggiungere 400+ tok/s su modelli ottimizzati, rendendolo una delle opzioni più veloci per l'inferenza concorrente su Mac.

vllm-mlx porta il batching continuo su Apple Silicon via MLX.

Installazione

pip install vllm-mlx
vllm serve mlx-community/gemma-2-9b-it-4bit

Dettagli

Proprietà	Valore
Porta predefinita	8000
Tipo API	Compatibile con OpenAI
Report VRAM	No
Formato modello	MLX (safetensors)
Rilevamento	Endpoint `/version` o rilevamento processi `lsof`

Note

vllm-mlx supporta il batching continuo, rendendolo adatto alla gestione di richieste concorrenti.
Può raggiungere 400+ tok/s su Apple Silicon con modelli ottimizzati.
Usa l'API standard compatibile con OpenAI di vLLM.

Vedi anche

Confronta motori con asiai bench --engines vllm-mlx --- scopri come