Zum Inhalt

vllm-mlx

vLLM-MLX bringt das vLLM-Serving-Framework über MLX auf Apple Silicon und bietet Continuous Batching und eine OpenAI-kompatible API auf Port 8000. Es kann 400+ tok/s bei optimierten Modellen erreichen und ist damit eine der schnellsten Optionen für gleichzeitige Inferenz auf dem Mac.

vllm-mlx bringt Continuous Batching über MLX auf Apple Silicon.

Installation

pip install vllm-mlx
vllm serve mlx-community/gemma-2-9b-it-4bit

Details

Eigenschaft Wert
Standardport 8000
API-Typ OpenAI-kompatibel
VRAM-Berichterstattung Nein
Modellformat MLX (safetensors)
Erkennung /version-Endpunkt oder lsof-Prozesserkennung

Hinweise

  • vllm-mlx unterstützt Continuous Batching und eignet sich für die Verarbeitung gleichzeitiger Anfragen.
  • Kann 400+ tok/s auf Apple Silicon mit optimierten Modellen erreichen.
  • Verwendet die standardmäßige vLLM-OpenAI-kompatible API.

Siehe auch

Vergleichen Sie Engines mit asiai bench --engines vllm-mlx --- mehr erfahren