Saltar a contenido

oMLX

oMLX es un servidor de inferencia nativo para macOS que usa caché KV paginada en SSD para manejar ventanas de contexto más grandes de lo que la memoria sola permitiría, con batching continuo para solicitudes concurrentes en el puerto 8000. Soporta APIs compatibles con OpenAI y Anthropic en Apple Silicon.

oMLX es un servidor de inferencia LLM nativo para macOS con caché KV paginada en SSD y batching continuo, gestionado desde la barra de menú. Construido sobre MLX para Apple Silicon.

Instalación

brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx

O descarga el .dmg desde las releases de GitHub.

Detalles

Propiedad Valor
Puerto por defecto 8000
Tipo de API Compatible con OpenAI + Compatible con Anthropic
Reporte de VRAM No
Formato de modelo MLX (safetensors)
Detección Endpoint JSON /admin/info o página HTML /admin
Requisitos macOS 15+, Apple Silicon (M1+), 16 GB RAM mín.

Notas

  • oMLX comparte el puerto 8000 con vllm-mlx. asiai usa el sondeo de /admin/info para distinguir entre ellos.
  • La caché KV en SSD permite ventanas de contexto más grandes con menor presión de memoria.
  • El batching continuo mejora el rendimiento bajo solicitudes concurrentes.
  • Soporta LLMs de texto, modelos visión-lenguaje, modelos OCR, embeddings y rerankers.
  • El panel de administración en /admin proporciona métricas del servidor en tiempo real.
  • Actualización automática integrada cuando se instala vía .dmg.

Ver también

Compara motores con asiai bench --engines omlx --- aprende cómo