mlx-lm

mlx-lm é o servidor de inferência MLX de referência da Apple, executando modelos nativamente na GPU Metal via porta 8080. É particularmente eficiente para modelos MoE (Mixture of Experts) no Apple Silicon, aproveitando a memória unificada para carregamento zero-copy de modelos.

mlx-lm executa modelos nativamente no Apple MLX, proporcionando utilização eficiente de memória unificada.

Configuração

brew install mlx-lm
mlx_lm.server --model mlx-community/gemma-2-9b-it-4bit

Detalhes

Propriedade	Valor
Porta padrão	8080
Tipo de API	Compatível com OpenAI
Reporte de VRAM	Não
Formato de modelo	MLX (safetensors)
Detecção	Endpoint `/version` ou detecção de processo via `lsof`

Notas

mlx-lm compartilha a porta 8080 com llama.cpp. O asiai usa probing de API e detecção de processo para distinguir entre eles.
Os modelos usam o formato da comunidade HuggingFace/MLX (ex: mlx-community/gemma-2-9b-it-4bit).
A execução nativa MLX tipicamente proporciona excelente performance no Apple Silicon.

Veja também

Compare motores com asiai bench --engines mlxlm --- saiba como