vllm-mlx

Name: asiai
Author: Jean-Marc Nahlovsky

vLLM-MLX bringt das vLLM-Serving-Framework über MLX auf Apple Silicon und bietet Continuous Batching und eine OpenAI-kompatible API auf Port 8000. Es kann 400+ tok/s bei optimierten Modellen erreichen und ist damit eine der schnellsten Optionen für gleichzeitige Inferenz auf dem Mac.

vllm-mlx bringt Continuous Batching über MLX auf Apple Silicon.

Installation

pip install vllm-mlx
vllm serve mlx-community/gemma-2-9b-it-4bit

Details

Eigenschaft	Wert
Standardport	8000
API-Typ	OpenAI-kompatibel
VRAM-Berichterstattung	Nein
Modellformat	MLX (safetensors)
Erkennung	`/version`-Endpunkt oder `lsof`-Prozesserkennung

Hinweise

vllm-mlx unterstützt Continuous Batching und eignet sich für die Verarbeitung gleichzeitiger Anfragen.
Kann 400+ tok/s auf Apple Silicon mit optimierten Modellen erreichen.
Verwendet die standardmäßige vLLM-OpenAI-kompatible API.

Siehe auch

Vergleichen Sie Engines mit asiai bench --engines vllm-mlx --- mehr erfahren