Ir para o conteúdo

oMLX

oMLX é um servidor de inferência nativo macOS que usa cache KV paginado em SSD para lidar com janelas de contexto maiores do que a memória sozinha permitiria, com batching contínuo para requisições concorrentes na porta 8000. Suporta APIs compatíveis com OpenAI e Anthropic no Apple Silicon.

oMLX é um servidor de inferência LLM nativo macOS com cache KV paginado em SSD e batching contínuo, gerenciado pela barra de menu. Construído com MLX para Apple Silicon.

Configuração

brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx

Ou baixe o .dmg das releases do GitHub.

Detalhes

Propriedade Valor
Porta padrão 8000
Tipo de API Compatível com OpenAI + compatível com Anthropic
Reporte de VRAM Não
Formato de modelo MLX (safetensors)
Detecção Endpoint JSON /admin/info ou página HTML /admin
Requisitos macOS 15+, Apple Silicon (M1+), 16 GB RAM mínimo

Notas

  • oMLX compartilha a porta 8000 com vllm-mlx. O asiai usa probing do /admin/info para distinguir entre eles.
  • O cache KV em SSD permite janelas de contexto maiores com menor pressão de memória.
  • O batching contínuo melhora o throughput sob requisições concorrentes.
  • Suporta LLMs de texto, modelos vision-language, modelos OCR, embeddings e rerankers.
  • O dashboard admin em /admin fornece métricas do servidor em tempo real.
  • Atualização automática in-app quando instalado via .dmg.

Veja também

Compare motores com asiai bench --engines omlx --- saiba como