vllm-mlx
vLLM-MLX apporte le framework de serving vLLM sur Apple Silicon via MLX, offrant du batching continu et une API compatible OpenAI sur le port 8000. Il peut atteindre 400+ tok/s sur les modèles optimisés, en faisant l'une des options les plus rapides pour l'inférence concurrente sur Mac.
vllm-mlx apporte le batching continu sur Apple Silicon via MLX.
Installation
pip install vllm-mlx
vllm serve mlx-community/gemma-2-9b-it-4bit
Détails
| Propriété | Valeur |
|---|---|
| Port par défaut | 8000 |
| Type d'API | Compatible OpenAI |
| Rapport VRAM | Non |
| Format de modèle | MLX (safetensors) |
| Détection | Endpoint /version ou détection de processus lsof |
Notes
- vllm-mlx supporte le batching continu, le rendant adapté au traitement de requêtes concurrentes.
- Peut atteindre 400+ tok/s sur Apple Silicon avec les modèles optimisés.
- Utilise l'API standard compatible OpenAI de vLLM.
Voir aussi
Comparez les moteurs avec asiai bench --engines vllm-mlx --- en savoir plus