Saltar a contenido

mlx-lm

mlx-lm es el servidor de inferencia MLX de referencia de Apple, ejecutando modelos nativamente en GPU Metal a través del puerto 8080. Es particularmente eficiente para modelos MoE (Mixture of Experts) en Apple Silicon, aprovechando la memoria unificada para carga de modelos sin copia.

mlx-lm ejecuta modelos nativamente en Apple MLX, proporcionando utilización eficiente de memoria unificada.

Instalación

brew install mlx-lm
mlx_lm.server --model mlx-community/gemma-2-9b-it-4bit

Detalles

Propiedad Valor
Puerto por defecto 8080
Tipo de API Compatible con OpenAI
Reporte de VRAM No
Formato de modelo MLX (safetensors)
Detección Endpoint /version o detección de procesos lsof

Notas

  • mlx-lm comparte el puerto 8080 con llama.cpp. asiai usa sondeo de API y detección de procesos para distinguir entre ellos.
  • Los modelos usan el formato HuggingFace/comunidad MLX (ej. mlx-community/gemma-2-9b-it-4bit).
  • La ejecución nativa MLX típicamente proporciona excelente rendimiento en Apple Silicon.

Ver también

Compara motores con asiai bench --engines mlxlm --- aprende cómo