mlx-lm
mlx-lm ist Apples Referenz-MLX-Inferenzserver, der Modelle nativ auf der Metal-GPU über Port 8080 ausführt. Es ist besonders effizient für MoE-Modelle (Mixture of Experts) auf Apple Silicon und nutzt Unified Memory für das Laden von Modellen ohne Kopiervorgang.
mlx-lm führt Modelle nativ auf Apple MLX aus und bietet effiziente Unified-Memory-Nutzung.
Installation
brew install mlx-lm
mlx_lm.server --model mlx-community/gemma-2-9b-it-4bit
Details
| Eigenschaft | Wert |
|---|---|
| Standardport | 8080 |
| API-Typ | OpenAI-kompatibel |
| VRAM-Berichterstattung | Nein |
| Modellformat | MLX (safetensors) |
| Erkennung | /version-Endpunkt oder lsof-Prozesserkennung |
Hinweise
- mlx-lm teilt Port 8080 mit llama.cpp. asiai verwendet API-Probing und Prozesserkennung, um sie zu unterscheiden.
- Modelle verwenden das HuggingFace/MLX-Community-Format (z.B.
mlx-community/gemma-2-9b-it-4bit). - Native MLX-Ausführung bietet typischerweise hervorragende Leistung auf Apple Silicon.
Siehe auch
Vergleichen Sie Engines mit asiai bench --engines mlxlm --- mehr erfahren