Vai al contenuto

oMLX

oMLX è un server di inferenza nativo per macOS che usa la cache KV paginata su SSD per gestire finestre di contesto più grandi di quanto la sola memoria consentirebbe, con batching continuo per richieste concorrenti sulla porta 8000. Supporta API compatibili con OpenAI e Anthropic su Apple Silicon.

oMLX è un server di inferenza LLM nativo per macOS con cache KV paginata su SSD e batching continuo, gestito dalla barra dei menu. Costruito su MLX per Apple Silicon.

Installazione

brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx

Oppure scarica il .dmg dalle release GitHub.

Dettagli

Proprietà Valore
Porta predefinita 8000
Tipo API Compatibile con OpenAI + Compatibile con Anthropic
Report VRAM No
Formato modello MLX (safetensors)
Rilevamento Endpoint JSON /admin/info o pagina HTML /admin
Requisiti macOS 15+, Apple Silicon (M1+), 16 GB RAM min.

Note

  • oMLX condivide la porta 8000 con vllm-mlx. asiai usa il probing di /admin/info per distinguere tra loro.
  • La cache KV su SSD consente finestre di contesto più grandi con minore pressione di memoria.
  • Il batching continuo migliora il throughput sotto richieste concorrenti.
  • Supporta LLM testuali, modelli visione-linguaggio, modelli OCR, embedding e reranker.
  • La dashboard admin su /admin fornisce metriche del server in tempo reale.
  • Aggiornamento automatico integrato quando installato via .dmg.

Vedi anche

Confronta motori con asiai bench --engines omlx --- scopri come