oMLX
oMLX est un serveur d'inférence natif macOS qui utilise le KV caching SSD paginé pour gérer des fenêtres de contexte plus grandes que ce que la mémoire seule permettrait, avec du batching continu pour les requêtes concurrentes sur le port 8000. Il supporte les API compatibles OpenAI et Anthropic sur Apple Silicon.
oMLX est un serveur d'inférence LLM natif macOS avec KV caching SSD paginé et batching continu, géré depuis la barre de menus. Construit sur MLX pour Apple Silicon.
Installation
brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx
Ou téléchargez le .dmg depuis les releases GitHub.
Détails
| Propriété | Valeur |
|---|---|
| Port par défaut | 8000 |
| Type d'API | Compatible OpenAI + compatible Anthropic |
| Rapport VRAM | Non |
| Format de modèle | MLX (safetensors) |
| Détection | Endpoint JSON /admin/info ou page HTML /admin |
| Prérequis | macOS 15+, Apple Silicon (M1+), 16 Go RAM min |
Notes
- oMLX partage le port 8000 avec vllm-mlx. asiai utilise le sondage
/admin/infopour les distinguer. - Le KV caching SSD permet des fenêtres de contexte plus grandes avec moins de pression mémoire.
- Le batching continu améliore le débit sous requêtes concurrentes.
- Supporte les LLM texte, modèles vision-langage, modèles OCR, embeddings et rerankers.
- Le dashboard admin sur
/adminfournit des métriques serveur en temps réel. - Mise à jour automatique intégrée quand installé via
.dmg.
Voir aussi
Comparez les moteurs avec asiai bench --engines omlx --- en savoir plus