oMLX
oMLX è un server di inferenza nativo per macOS che usa la cache KV paginata su SSD per gestire finestre di contesto più grandi di quanto la sola memoria consentirebbe, con batching continuo per richieste concorrenti sulla porta 8000. Supporta API compatibili con OpenAI e Anthropic su Apple Silicon.
oMLX è un server di inferenza LLM nativo per macOS con cache KV paginata su SSD e batching continuo, gestito dalla barra dei menu. Costruito su MLX per Apple Silicon.
Installazione
brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx
Oppure scarica il .dmg dalle release GitHub.
Dettagli
| Proprietà | Valore |
|---|---|
| Porta predefinita | 8000 |
| Tipo API | Compatibile con OpenAI + Compatibile con Anthropic |
| Report VRAM | No |
| Formato modello | MLX (safetensors) |
| Rilevamento | Endpoint JSON /admin/info o pagina HTML /admin |
| Requisiti | macOS 15+, Apple Silicon (M1+), 16 GB RAM min. |
Note
- oMLX condivide la porta 8000 con vllm-mlx. asiai usa il probing di
/admin/infoper distinguere tra loro. - La cache KV su SSD consente finestre di contesto più grandi con minore pressione di memoria.
- Il batching continuo migliora il throughput sotto richieste concorrenti.
- Supporta LLM testuali, modelli visione-linguaggio, modelli OCR, embedding e reranker.
- La dashboard admin su
/adminfornisce metriche del server in tempo reale. - Aggiornamento automatico integrato quando installato via
.dmg.
Vedi anche
Confronta motori con asiai bench --engines omlx --- scopri come