oMLX
oMLX ist ein nativer macOS-Inferenzserver, der paginiertes SSD-KV-Caching nutzt, um größere Kontextfenster zu handhaben als der Speicher allein erlauben würde, mit Continuous Batching für gleichzeitige Anfragen auf Port 8000. Es unterstützt sowohl OpenAI- als auch Anthropic-kompatible APIs auf Apple Silicon.
oMLX ist ein nativer macOS-LLM-Inferenzserver mit paginiertem SSD-KV-Caching und Continuous Batching, verwaltet über die Menüleiste. Gebaut auf MLX für Apple Silicon.
Installation
brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx
Oder laden Sie die .dmg von den GitHub Releases herunter.
Details
| Eigenschaft | Wert |
|---|---|
| Standardport | 8000 |
| API-Typ | OpenAI-kompatibel + Anthropic-kompatibel |
| VRAM-Berichterstattung | Nein |
| Modellformat | MLX (safetensors) |
| Erkennung | /admin/info-JSON-Endpunkt oder /admin-HTML-Seite |
| Voraussetzungen | macOS 15+, Apple Silicon (M1+), mind. 16 GB RAM |
Hinweise
- oMLX teilt Port 8000 mit vllm-mlx. asiai verwendet
/admin/info-Probing, um sie zu unterscheiden. - SSD-KV-Caching ermöglicht größere Kontextfenster bei geringerem Speicherdruck.
- Continuous Batching verbessert den Durchsatz bei gleichzeitigen Anfragen.
- Unterstützt Text-LLMs, Vision-Language-Modelle, OCR-Modelle, Embeddings und Reranker.
- Das Admin-Dashboard unter
/adminbietet Echtzeit-Servermetriken. - Integriertes Auto-Update bei Installation über
.dmg.
Siehe auch
Vergleichen Sie Engines mit asiai bench --engines omlx --- mehr erfahren