Vai al contenuto

vllm-mlx

vLLM-MLX porta il framework di serving vLLM su Apple Silicon via MLX, offrendo batching continuo e un'API compatibile con OpenAI sulla porta 8000. Può raggiungere 400+ tok/s su modelli ottimizzati, rendendolo una delle opzioni più veloci per l'inferenza concorrente su Mac.

vllm-mlx porta il batching continuo su Apple Silicon via MLX.

Installazione

pip install vllm-mlx
vllm serve mlx-community/gemma-2-9b-it-4bit

Dettagli

Proprietà Valore
Porta predefinita 8000
Tipo API Compatibile con OpenAI
Report VRAM No
Formato modello MLX (safetensors)
Rilevamento Endpoint /version o rilevamento processi lsof

Note

  • vllm-mlx supporta il batching continuo, rendendolo adatto alla gestione di richieste concorrenti.
  • Può raggiungere 400+ tok/s su Apple Silicon con modelli ottimizzati.
  • Usa l'API standard compatibile con OpenAI di vLLM.

Vedi anche

Confronta motori con asiai bench --engines vllm-mlx --- scopri come