mlx-lm

mlx-lm es el servidor de inferencia MLX de referencia de Apple, ejecutando modelos nativamente en GPU Metal a través del puerto 8080. Es particularmente eficiente para modelos MoE (Mixture of Experts) en Apple Silicon, aprovechando la memoria unificada para carga de modelos sin copia.

mlx-lm ejecuta modelos nativamente en Apple MLX, proporcionando utilización eficiente de memoria unificada.

Instalación

brew install mlx-lm
mlx_lm.server --model mlx-community/gemma-2-9b-it-4bit

Detalles

Propiedad	Valor
Puerto por defecto	8080
Tipo de API	Compatible con OpenAI
Reporte de VRAM	No
Formato de modelo	MLX (safetensors)
Detección	Endpoint `/version` o detección de procesos `lsof`

Notas

mlx-lm comparte el puerto 8080 con llama.cpp. asiai usa sondeo de API y detección de procesos para distinguir entre ellos.
Los modelos usan el formato HuggingFace/comunidad MLX (ej. mlx-community/gemma-2-9b-it-4bit).
La ejecución nativa MLX típicamente proporciona excelente rendimiento en Apple Silicon.

Ver también

Compara motores con asiai bench --engines mlxlm --- aprende cómo