oMLX
oMLX é um servidor de inferência nativo macOS que usa cache KV paginado em SSD para lidar com janelas de contexto maiores do que a memória sozinha permitiria, com batching contínuo para requisições concorrentes na porta 8000. Suporta APIs compatíveis com OpenAI e Anthropic no Apple Silicon.
oMLX é um servidor de inferência LLM nativo macOS com cache KV paginado em SSD e batching contínuo, gerenciado pela barra de menu. Construído com MLX para Apple Silicon.
Configuração
brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx
Ou baixe o .dmg das releases do GitHub.
Detalhes
| Propriedade | Valor |
|---|---|
| Porta padrão | 8000 |
| Tipo de API | Compatível com OpenAI + compatível com Anthropic |
| Reporte de VRAM | Não |
| Formato de modelo | MLX (safetensors) |
| Detecção | Endpoint JSON /admin/info ou página HTML /admin |
| Requisitos | macOS 15+, Apple Silicon (M1+), 16 GB RAM mínimo |
Notas
- oMLX compartilha a porta 8000 com vllm-mlx. O asiai usa probing do
/admin/infopara distinguir entre eles. - O cache KV em SSD permite janelas de contexto maiores com menor pressão de memória.
- O batching contínuo melhora o throughput sob requisições concorrentes.
- Suporta LLMs de texto, modelos vision-language, modelos OCR, embeddings e rerankers.
- O dashboard admin em
/adminfornece métricas do servidor em tempo real. - Atualização automática in-app quando instalado via
.dmg.
Veja também
Compare motores com asiai bench --engines omlx --- saiba como