mlx-lm

Name: asiai
Author: Jean-Marc Nahlovsky

mlx-lm ist Apples Referenz-MLX-Inferenzserver, der Modelle nativ auf der Metal-GPU über Port 8080 ausführt. Es ist besonders effizient für MoE-Modelle (Mixture of Experts) auf Apple Silicon und nutzt Unified Memory für das Laden von Modellen ohne Kopiervorgang.

mlx-lm führt Modelle nativ auf Apple MLX aus und bietet effiziente Unified-Memory-Nutzung.

Installation

brew install mlx-lm
mlx_lm.server --model mlx-community/gemma-2-9b-it-4bit

Details

Eigenschaft	Wert
Standardport	8080
API-Typ	OpenAI-kompatibel
VRAM-Berichterstattung	Nein
Modellformat	MLX (safetensors)
Erkennung	`/version`-Endpunkt oder `lsof`-Prozesserkennung

Hinweise

mlx-lm teilt Port 8080 mit llama.cpp. asiai verwendet API-Probing und Prozesserkennung, um sie zu unterscheiden.
Modelle verwenden das HuggingFace/MLX-Community-Format (z.B. mlx-community/gemma-2-9b-it-4bit).
Native MLX-Ausführung bietet typischerweise hervorragende Leistung auf Apple Silicon.

Siehe auch

Vergleichen Sie Engines mit asiai bench --engines mlxlm --- mehr erfahren